资讯列表
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。 今天我们介绍的这个名叫 LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。
5/30/2025 3:54:16 PM
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。 近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。 然而,真正实现规模化应用仍面临诸多瓶颈。
5/30/2025 3:53:27 PM
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。 谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。 然而,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退,实际推理速度长期被自回归模型压制.近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!
5/30/2025 3:52:05 PM
实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
作者丨王悦编辑丨陈彩娴上个月,字节跳动旗下 Agent「扣子空间」上线之初,曾经一度被挤爆服务器,全网分享内测码。 经过一个月时间的沉淀,AI 科技评论发现了扣子空间最新上线了一个新玩法—— 一键生成播客。 相比于主打任务规划与执行的通用 Agent,AI 播客 Agent 需要的能力确实更丰富,内容理解、多模态融合、语音合成、情感表达、多角色模拟、对话逻辑等能力都不可或缺,这对多模态性能有很大挑战。
5/30/2025 3:44:00 PM
陈淑瑜
OpenAI 坚决反击马斯克:法院裁定请求毫无依据
据路透社报道,OpenAI 近日向法院提出申请,要求继续对特斯拉创始人埃隆・马斯克进行反诉。 OpenAI 在法庭文件中表示,马斯克请求驳回其反诉的动议 “毫无事实依据”。 这一案件的持续发酵,再次引发了公众的关注。
5/30/2025 3:00:54 PM
AI在线
Figure完成史上最大重组:三大技术团队合并成AI核心小组Helix
人形机器人公司Figure今日宣布完成公司历史上规模最大的组织重组,CEO Brett Adcock通过推特透露,上周已将三个独立技术团队合并进新成立的AI小组Helix,旨在打破部门壁垒,加速人形机器人的商业化进程。 以AI模型命名的战略整合新成立的Helix小组以Figure三个月前推出的首个VLA(视觉-语言-行动)具身模型Felix的核心技术命名,凸显了AI在公司战略中的核心地位。 据Figure此前发布的资料显示,Helix技术在多个关键领域取得了突破性进展,专门为Figure人形机器人提供通用智能控制能力,是实现机器人自主操作的关键技术基础。
5/30/2025 3:00:54 PM
AI在线
Google 的 Agent2Agent(A2A)框架详解
作者 | Nirdiamant编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)MCP,市面上已经有不少干货解读了,但作为经常被拿来对比的 A2A,内容却很少,今天为大家详细解读下 A2A 的架构。 想象你走进一个繁忙的办公室,才华横溢的专家们正在处理各类复杂项目。 一个角落里,研究分析师在挖掘数据;旁边,设计专家在绘制视觉方案;另一边,物流协调员在安排货运。
5/30/2025 2:59:36 PM
云昭
苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%
苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement learning,RL)方法,进一步提升大语言模型的推理能力。
5/30/2025 2:45:12 PM
故渊
Yandex 发布最大音乐推荐开源数据集 Yambda
俄罗斯搜索巨头Yandex发布全球最大音乐推荐开源数据集Yambda,含47.9亿条匿名用户交互数据,覆盖939万首歌曲,助力开发者打造智能音乐服务。数据集分三种规模,最大需85GB存储空间。#音乐科技# #AI推荐#
5/30/2025 2:40:08 PM
准泽(实习)
Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑
Anthropic 昨日(5 月 29 日)发布博文,宣布推出“电路追踪”(Circuit Tracer)开源工具,以图形化方式,追踪并展示 AI 大语言模型的内部思维过程。
5/30/2025 2:36:15 PM
故渊
专治AI生图「人脸崩坏」,8倍速碾压GPT!新版FLUX.1多方位刷新SOTA
用AI生成&编辑图片时,想生成一套完整故事模板,结果主角「变脸」比翻书还快,这可怎么办? 别慌,全新图像模型FLUX.1 Kontext来了! 支持上下文内图像生成,可以同时使用文本和图像进行提示,并能够无缝提取和修改视觉概念,从而生成新的、连贯的图像。
5/30/2025 2:28:10 PM
新智元
谷歌联合创始人谢尔盖・布林:AI 颠覆搜索,从导航工具升级为洞见提供者
在最新访谈节目中,谷歌联合创始人谢尔盖・布林(Sergey Brin)分享了对未来人工智能(AI)的观点,他认为 AI 彻底改变在线搜索,从根本上改变“搜索”的定义。
5/30/2025 2:23:52 PM
故渊
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
AI生图新突破! 一个模型同时接受文本和图像输入。 新模型FLUX.1 Kontext使用流匹配架构(Flow Matching),不再是文本编码器和扩散模型各干各的,与此前技术都不同。
5/30/2025 2:22:00 PM
AI“电老虎”:2025 年底预估占全球数据中心近 50% 用电量,首超加密货币挖矿
科技媒体 The Verge 今天(5 月 30 日)发布博文,报道称最新研究预测,到 2025 年年底,人工智能(AI)的能源消耗将首次超过比特币挖矿,所消耗电力占全球数据中心近一半。
5/30/2025 2:10:05 PM
故渊
阿里云通义灵码 AI IDE 正式上线,带来编程新体验
阿里云宣布其全新产品 —— 通义灵码 AI IDE 正式上线,用户可以在官网免费下载并立即使用。 通义灵码 AI IDE 是一款原生的人工智能开发环境,深度适配了业界领先的开源模型千问3,支持多种先进功能,为开发者提供了更高效的编程体验。 通义灵码 AI IDE 的最大亮点在于其强大的编程智能体模式。
5/30/2025 2:00:54 PM
AI在线
手机照片一键变艺术!Runway Gen-4 References解锁相机胶卷新玩法
近日,Runway公司宣布其最新功能Gen-4References已支持移动设备,用户可通过手机相机胶卷中的照片,快速将其转化为风格一致的艺术作品。 这一功能将AI生成技术与移动端便捷性完美结合,为内容创作者和普通用户打开了全新的创作可能性。 AIbase编辑团队根据最新信息整理,为您详细解读这一令人兴奋的技术突破!Gen-4References:手机上的艺术创作革命Runway的Gen-4References功能允许用户通过上传相机胶卷中的照片,结合自然语言提示,生成风格一致的图像或视频内容。
5/30/2025 2:00:54 PM
AI在线
Hugging Face 推出 HopeJR 和 Reachy Mini 两款开源人形机器人
科技媒体 TechCrunch 昨日(5 月 29 日)发布博文,报道称 AI 开发平台 Hugging Face 最新推出 HopeJR 和 Reachy Mini 两款开源人形机器人,进一步进军机器人领域。
5/30/2025 1:37:43 PM
故渊
假冒阿里云AI SDK遭恶意代码渗透,AI安全供应链面临新挑战
近年来,开发者们在开放源代码组件库中愈发成为网络攻击的目标,黑客利用假冒软件包进行供应链攻击的手段不断升级,最近甚至扩展到了伪造的人工智能(AI)框架和被污染的机器学习(ML)模型。 近期,一项研究揭示了黑客通过上传伪装成阿里云 AI 实验室开发工具包的恶意软件包,成功实施了这一攻击。 研究人员在 Python Package Index(PyPI)上发现了三个恶意软件包,它们假冒了阿里云 AI 实验室的 SDK,实际上并没有任何合法功能。
5/30/2025 12:00:54 PM
AI在线