资讯列表
稀宇科技MiniMax推出视频生成模型Hailuo 02
稀宇科技在视频生成领域取得新进展,正式推出全新视频生成模型Hailuo02。 据悉,Hailuo02在处理高度复杂场景如体操动作时表现出色,是目前全球唯一能够实现此类效果的模型。 自去年8月底展示视频生成模型Demo网页以来,稀宇科技推出的海螺视频产品已帮助创作者生成超过3.7亿个视频,此次Hailuo02的推出进一步降低了视频创作门槛,提升了创作质量。
苹果新Speech API转录速度惊人,胜过OpenAI Whisper 55%
科技媒体 macstories 发布了一篇关于苹果新推出的 Speech API 的博文,引发了业界的广泛关注。 通过对一段时长34分钟、大小达7GB 的4K 视频文件进行转录测试,结果显示,苹果的新 Speech API 仅耗时45秒,速度远超其他同类工具。 相较之下,OpenAI 的 Whisper 转录时间为101秒,苹果的技术优势可见一斑,提升了约55% 的效率。
中国移动董事长杨杰:未来硅基生命数量将超过人类
杨杰介绍,随着AI技术能力、经济效益“两个规模效应”持续释放,AI在语言理解、图像识别、高效学习等方面已经达到甚至超过人类水平,并初步显现出思维、角色等类人属性。
大模型的性能提升:KV-Cache
大语言模型(LLM)在生成文本时,通常是一个 token 一个 token 地进行。 每当模型生成一个新的 token,它就会把这个 token 加入输入序列,作为下一步预测下一个 token 的依据。 这一过程不断重复,直到完成整个输出。
「摸鱼」被踢,GPT-4o真不行!30天筹款破万,AI真人秀太上头
当AI获得自由:慈善筹款大赛中,GPT-4o竟成「摸鱼王」! AI Digest进行了一项为期30天的「智能体村庄」实验:4个AI各配备电脑和网络;任务是为慈善筹款,每天直播2小时;共筹集2000美元。 第一季度持续30天,Claude 3.7 Sonnet表现最佳,最终获得冠军。
Meta 携手 Prada 等奢侈品牌推出新一代智能眼镜,AI 技术助力时尚潮流
近日,根据美国 CNBC 的报道,Meta 公司与依视路陆逊梯卡集团联合推出了一款全新智能眼镜,计划涵盖多个奢侈品牌,如 Prada 和 Oakley。 这款眼镜将搭载最新的生成式 AI 技术,旨在为消费者带来更高端的穿戴体验。 Meta 在社交媒体上发布了名为 “Oakley|Meta” 的 Instagram 账号,并预告将在6月20日正式揭晓这款新产品。
告别“AI感”!Krea1公测开放,超现实纹理与细节、多样化艺术风格
近日,Krea AI宣布其首款图像生成模型Krea1的公测版已正式向所有用户开放。 这一突破性AI图像生成工具以其卓越的美学控制力和高品质输出引发行业热议,成为创作者和开发者探索AI艺术创作的新选择。 Krea1由Krea AI与Black Forest Labs(FLUX系列开发者)合作打造,旨在解决传统AI图像生成中的“AI感”问题。
百度首推双数字人互动直播间,文心大模型4.5T驱动多模态技术新突破
近日,百度在人工智能领域再下一城,推出了全球首个双数字人互动直播间。 这一创新应用基于百度文心大模型4.5Turbo(以下简称4.5T),通过语言、声音和形象的多模态高度融合,实现了数字人与用户之间的自然、流畅互动,为直播行业带来了全新可能。 AIbase结合网络最新信息,深入解析这一技术突破及其对行业的深远影响。
编程新王者!DeepSeek-R1 问鼎全球编程能力,超越 Claude 4
在大模型竞争日益激烈的今天,DeepSeek-R1以其卓越的编程能力,成功超越了被誉为 “全球最强编码模型” 的 Claude Opus4,成为网页编程领域的新冠军。 这个新版本的 DeepSeek 虽然名字看似只是小更新,但实际上在 LiveCodeBench 上的表现与 OpenAI 的 o3-high 不相上下,引发了众多网友对其能力的热烈讨论。 为了揭开 DeepSeek-R1的神秘面纱,我们进行了几项实测,看看这款新模型到底有多强大。
小处着手,大获成功:如何选择合适的AI应用场景
CIO可以通过专注于解决现有痛点并提供可衡量业务价值的应用程序,来引导其企业走向成功。 当GenAI变得广泛可用时,企业感受到了采取行动的压力。 领导团队希望展示他们正在使用AI,这导致一些企业迅速推出了试点项目,但却没有明确的实现价值路径。
OpenAI“热线电话”技能更新:发短信给 1-800-242-8478 即可生成图片
OpenAI今日宣布,用户可以通过 WhatsApp 向 1-800-242-8478 发短信,从而调用该公司的图像生成功能。
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
谷歌Gemini 2.5 Flash 和 Pro 现已全面推出,向 OpenAI 发起强力挑战
谷歌宣布其 Gemini2.5系列模型的正式推出,其中包括已稳定发布的2.5Flash 和 Pro 模型,以及全新的2.5Flash-Lite 模型。 这一系列模型旨在为开发者提供卓越的性能,同时在成本和速度上实现最佳的平衡,满足市场对高效能 AI 工具的需求。 ** 新模型的亮点 **2.5Flash-Lite 是此次发布中的一大亮点,它被称为目前速度最快且最具成本效益的2.5模型。
大模型推理大变革!CMU 与英伟达携手推出 Multiverse,实现超高速并行生成
随着人工智能的发展,大型语言模型(LLM)的应用越来越广泛,但目前的推理方式仍然存在不少局限性。 传统的自回归生成方式需要逐个生成 token,效率较低且无法充分利用现代硬件的并行计算能力。 为了解决这一问题,卡耐基梅隆大学(CMU)与英伟达的研究团队推出了一种名为 Multiverse 的新型生成模型,旨在实现原生并行生成,从根本上改变我们对 LLM 推理的理解。
特斯拉 Grok 车载 AI 助手或将推出:多性格定制与儿童模式功能亮相
特斯拉正在加速推出其最新的车载 AI 助手 Grok,预计不久将上线。 尽管目前 Grok 尚未集成到特斯拉的汽车中,但通过固件分析,特斯拉的黑客 “green” 发现了关于 Grok 的多项新功能。 特斯拉首席执行官埃隆・马斯克几个月前曾表示,Grok 将带来更真实的互动体验,用户能够与车辆进行自由对话,询问任何问题。
科大讯飞再发力!全新星火X1升级版将于7月重磅上线!
近日,科大讯飞在互动平台上透露,备受瞩目的讯飞星火 X1升级版预计将于今年7月正式发布。 这一消息引发了业内人士和消费者的广泛关注,大家纷纷期待这款升级版的出色表现。 作为科大讯飞的核心产品之一,星火 X1升级版将在原有基础上进行更为全面的能力提升。
OpenAI在GitHub上发布了用于自动化前端测试的 AI 代理的演示
OpenAI 近日在 GitHub 上发布了一款创新的 AI驱动自动化前端测试工具演示版。 该工具结合了其内部开发的计算机使用代理 (CUA) 技术与广受欢迎的开源测试框架 Playwright,旨在彻底改变软件测试的流程。 这款工具的核心功能在于,它能够根据开发人员提供的书面描述,自动生成、运行并评估测试用例。
讯飞星火医疗大模型称霸 MedBench 榜单,助力基层医疗再升级
讯飞官方发布消息,旗下的讯飞星火医疗大模型在最新的 MedBench 榜单中脱颖而出,以95.4的高分荣登榜首。 这一成就标志着讯飞在医疗人工智能领域的又一次突破,尤其是在复杂医学推理、医学语言理解和医疗安全等核心能力上,均展示出强大的优势。 MedBench 是由上海人工智能实验室联合多家机构共同建立的中文医疗大模型评测平台,旨在为医疗领域提供全面的能力评估。