资讯列表
最新发现!每参数3.6比特,语言模型最多能记住这么多
语言模型到底能记住多少信息? Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示:每个参数大约 3.6 比特。 一旦达到这个极限,它们就会停止记忆并开始泛化。
6/4/2025 1:56:51 PM
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题? 这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。
6/4/2025 1:56:06 PM
冲击自回归,扩散模型正在改写下一代通用模型范式
上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。 在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。 从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
6/4/2025 1:55:03 PM
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。 通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。 在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。
6/4/2025 1:53:57 PM
GPT-4o连验证码都解不了?SOTA模型成功率仅40%
当前最强多模态Agent连验证码都解不了? MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld。 该平台专门用于测试Agent解验证码的能力。
6/4/2025 1:53:22 PM
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 国产开源模型又上大分,这次是在长视频理解领域:智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型Video-XL-2。 长视频理解是多模态大模型关键能力之一。
6/4/2025 1:51:43 PM
“AI 教父”本希奥宣布开发“诚信”系统,防范智能体欺骗人类
“AI 教父”约书亚・本希奥(Yoshua Bengio)成立 LawZero 非营利组织,致力于开发“诚实”的 AI 系统,用以识别“流氓”AI 系统。
6/4/2025 1:51:01 PM
故渊
突发!刚被OpenAI收购就惨遭Claude“卡脖子”!Windsurf CEO怒了:想花钱都买不到!网友:直接上GPT-5吧!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)AI 编程圈又发生大事了。 OpenAI 刚刚要收购的 Windsurf,居然突然不能用 Claude 了。 Anthropic 临时掐断了 Claude 3.x 的一手访问权限,Claude 4 更是从未放行,就连 BYOK(自带 API 密钥)都得开发者自己去 Anthropic 买。
6/4/2025 1:46:15 PM
伊风
《堡垒之夜》引入生成式 AI 工具,仅需 20 行文本就能定制智能 NPC
Epic于当地时间周二的“State of Unreal”主题发布会上首次展示了这项技术。公司介绍称,演示中的 NPC 是在现场实时生成回答的,仅用“大约20行”提示文本就构建完成。
6/4/2025 12:36:37 PM
清源
纽约时报与亚马逊签署首个生成式 AI 内容许可协议
近日,《纽约时报》宣布与亚马逊达成了一项重要的内容许可协议,这是该报首次专注于生成式人工智能技术。 这一协议的签署标志着《纽约时报》将其新闻编辑内容向亚马逊的 AI 平台开放,双方将共同探索如何在新的技术环境中维护内容价值。 根据《纽约时报》的声明,这份多年期协议不仅涉及其核心新闻报道,还包括旗下美食网站 NYT Cooking 和体育媒体 The Athletic 的相关内容。
6/4/2025 12:00:54 PM
AI在线
“AI 编程”商战启动:Windsurf 称 Anthropic 限制其直接访问 Claude 模型
Windsurf CEO Varun Mohan 周二在 X 上发文称,Anthropic 在几乎没有预先通知的情况下就做出调整,公司不得不临时寻找其他第三方算力供应商,以继续支持平台上的 Claude 模型服务。
6/4/2025 11:32:37 AM
清源
LangGPT:让人人都能写出大师级Prompt,从此告别“灵感枯竭症”!
一、什么是 LangGPT? Prompt的编程语言来了! 你见过这样的尴尬场面吗:苦苦啃Prompt文档一年,还没搞明白ChatGPT到底要怎么“聆听人言”?
6/4/2025 11:09:02 AM
许泽宇
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的空间-时间长时记忆。 图片如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。
6/4/2025 11:08:28 AM
OpenAI CEO警示:AI智能体正重塑职场格局,基层岗位面临结构性冲击
在 2025 年 Snowflake Summit 主题演讲中,OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)抛出震撼观点:AI 智能体正以惊人速度渗透企业运营,其角色已从工具演变为 "数字基层员工",直接引发职场结构的根本性变革。 智能体崛起:从工具到 "数字员工" 的质变奥尔特曼指出,当前诸多企业已将 AI智能体纳入日常工作流,承担数据整理、报告生成、流程审批等标准化任务。 员工的核心职能逐渐转向 "智能体管理者"—— .
6/4/2025 11:06:01 AM
解读:AI智能体时代的实用指南——吴恩达与LangChain创始人的深度对话
Hi,大家好,我叫秋水,专注商用 AI Agent(智能体),帮企业用AI自动化业务,提升效率。 在刚刚结束的一场AI技术峰会上,深度学习领域的传奇人物吴恩达与LangChain创始人Harrison进行了一场精彩的谈话。 这场对话不仅揭示了AI智能体技术的最新趋势,更为普通人和企业指明了在AI时代如何抓住机遇的实用路径。
6/4/2025 11:04:03 AM
秋水
NotebookLM 推出公共共享功能,让笔记分享更便捷
在现代学习和工作中,笔记的分享与协作变得愈发重要。 近日,NotebookLM 宣布了一项新功能,使得用户可以更方便地公开分享他们的笔记。 无论是用于非营利组织项目的概述、商业产品手册,还是课堂学习资料,用户都能通过一个简单的链接与任何人分享他们的笔记。
6/4/2025 11:00:59 AM
AI在线
PlayDiffusion发布:开源扩散模型实现语音“局部修改”不留痕
Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion,这是一种基于扩散模型的创新性工具,专为语音局部修改而设计。 不同于传统的文本转语音系统需对整段音频重生成,PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整,而其他未修改部分将保持完全一致。 这种方式不仅极大提高了效率,也让音频编辑进入“所听即所得”的新阶段。
6/4/2025 11:00:59 AM
AI在线
IBM 在纽约市推出全新 AI 创新中心,助力企业智能化转型
IBM 最近宣布在纽约市设立全新的 watsonx AI Labs 创新中心,旨在 “提升” AI 技术的开发速度并加速其大规模应用。 该实验室位于 IBM 位于曼哈顿的办公室,旨在连接 AI 开发者和初创企业,与 IBM 的研究人员和工程师网络合作,支持企业级智能 AI 系统的发展。 watsonx AI Labs 将重点解决日常商业挑战,包括客户服务、供应链优化、网络安全、负责任的 AI 治理以及开源 AI 等领域。
6/4/2025 11:00:55 AM
AI在线