资讯列表
长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试
在最近的 Fiction.Live 基准测试中,Gemini2.5Pro 在理解和再现复杂故事和背景方面表现出色,领先于竞争对手 OpenAI 的 o3模型。 这项测试远超传统的“大海捞针”式任务,专注于模型在海量上下文中处理深层语义和背景依赖信息的能力。 据测试数据显示,在上下文窗口长度达到192,000个词条(约14.4万个单词)时,o3模型性能急剧下滑,而 Gemini2.5Pro 的6月预览版(preview-06-05)在同一条件下依然保持了超过90% 的准确率。
6/9/2025 9:00:56 AM
AI在线
英国呼吁限制 Meta 利用人工智能进行风险评估
近日,英国的互联网安全倡导者向国家通讯监管机构 Ofcom 发出警告,要求限制 Meta(前身为 Facebook)在关键风险评估中使用人工智能(AI)。 这一呼吁源于一份报告,报告指出 Meta 计划将高达90% 的风险评估工作交由 AI 自动完成。 这一改变引发了对用户安全,特别是未成年用户保护的广泛担忧。
6/9/2025 9:00:56 AM
AI在线
顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好
Ai2的高级研究科学家Nathan Lambert,最近分享了他如何走上AI之路。 尽管起步艰难、几经波折,他依旧在AI领域站稳脚跟、有所成就。 博士毕业时,他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。
6/9/2025 9:00:00 AM
告别「失忆」AI!首个大模型记忆操作系统开源框架来了!
该项目来自百家 AI,是北京邮电大学白婷副教授所指导的研究小组, 团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。 大语言模型受限于固定上下文窗口,长期对话中「失忆」、记忆断裂等问题频发,北邮百家 AI 团队重磅推出首个大模型记忆操作系统开源框架 MemoryOS。 巧妙融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块(存储、更新、检索、生成),提供全链路用户记忆管理方案,让 AI 智能体拥有持久「记性」与深度「个性」。
6/9/2025 8:56:00 AM
顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报
只要6小时,顶尖大模型Claude 4 Opus「安全防线」被攻破! AI安全研究机构FAR.AI联合创始人Adam Gleave透露,仅用6小时,研究人员Ian McKenzie就成功诱导Claude 4生成了长达15页的化学武器制作指南。 Ian McKenzie回应称:Claude 4传授的内容,比他预期的还要多。
6/9/2025 8:53:00 AM
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
谷歌又有新的注意力了! 他们提出的新架构参数减少40%,训练速度较RNN提升5-8倍,在某些任务上性能甚至Transformer好7.2%! 在大语言模型(LLMs)中,他们引入了新的注意力偏向策略,并重新构想了「遗忘」这一过程,用「保留」来取而代之。
6/9/2025 8:52:00 AM
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
多模态检索是信息理解与获取的关键技术,但其中的跨模态干扰问题一直是一大难题。 可行的解决办法是构建一种统一的多模态表示方式,为此,来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE。 UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。
6/9/2025 8:50:00 AM
RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈
在Dwarkesh Patel主持的节目中,Anthropic的Sholto Douglas、Trenton Bricken等人,一起讨论了Claude 4是如何思考的。 三人私交甚好,聊了2小时20多分钟,主要集中在4个话题:1. 过去一年中人工智能研究的变化;2.
6/9/2025 8:48:00 AM
扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。 朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。 该研究基于团队前期发布的 8B 扩散语言模型 LLaDA(国内率先做到真正可用的扩散语言模型,是后续很多研究的主干基础模型),探索了扩散语言模型的偏好对齐方法,提出了方差缩减的偏好优化方法 VRPO,并利用 VRPO 对 LLaDA 进行了强化对齐,推出了 LLaDA 1.5。
6/9/2025 8:47:00 AM
多模态LLM+RAG:突破生成瓶颈的下一代AI架构革命
译者 | 朱先忠审校 | 重楼通过整合文本、图像、音频等数据,多模态大型语言模型(MLLM)开始突破传统RAG的文本局限,赋予AI感知能力。 其核心架构采用CLIP、Whisper等编码器实现跨模态语义统一,通过投影层对齐多模态信息。 不过,多模态大型语言模型的评估需要综合检索质量、生成忠实度及跨模态一致性等一系列指标实现。
6/9/2025 8:42:23 AM
朱先忠
生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架
图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。 有没有这样一个“AI创作大师”,你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢? 这一切,现在通过一个由港科大(广州)和字节联合出品的全新的开源框架——ComfyMind实现了。
6/9/2025 8:40:00 AM
图灵奖得主、AI教父Bengio:我改变了科研方向,哪怕与此前信念背离,也要尽己所能降低AI失控的灾难风险;AGI最快五年降临
编辑 | 云昭6月6日,年逾花甲的三大“AI教父”之一的Yoshua Bengio(小编心中的科研偶像之一),如约出现在2025智源大会上的现场荧幕中。 大师眼中的GPT究竟是什么样子? 我们又该打造怎样的AI?
6/9/2025 8:39:10 AM
云昭
八个数据集全面胜出!思维链推理刷新图学习表现上限
思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了GCoT——首个应用于无文本图数据的类思维链提示学习框架。
6/9/2025 8:37:00 AM
视频生成平台 Runway 举办年度 AI 电影节,6000 部参赛作品决出十强
不过,并非所有作品完全由 AI 生成。参赛门槛要求影片中必须使用 AI 视频技术,但并未规定比例,因此不少作品采用真人实拍与 AI 元素混合的方式呈现。
6/9/2025 8:35:37 AM
清源
你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%
ChatGPT将大模型技术推动到「对话」场景,直接引发了AI技术的爆炸式增长。 用户可以先提出一个粗糙的、不明确的问题,再根据模型的回答逐步完善指令、补充细节,多轮对话也催生出「跟AI打电话」等有趣的应用设计。 不过,现有的大模型性能评估基准仍然是基于单轮对话机制,输入的指令也更长,信息更完善,其在真实场景中多轮对话的性能仍然没有得到很好地评估。
6/9/2025 8:30:00 AM
CS专业爆冷,失业率飙至全美第七!毕业生狂卷4年,投1000份简历换0 offer
谁能想到,曾经最受欢迎的大学专业,如今却拥有最高的失业率? 曾经红极一时的CS,时常被评为最受大学生和应届毕业生欢迎的专业。 但是如今,它却成了所有研究领域中失业率最高的专业之一。
6/9/2025 8:28:00 AM
OpenAI 全新 Codex AI 代理或将终结传统 IDE 时代
OpenAI 推出的最新 Codex AI 代理堪称革命性突破。 它与目前市面上的 Windsurf、Cursor 等智能代理工具完全不同,属于全新层次。 只需看它如何自主修复项目中的多个 BUG——没有任何人工干预,轻松解决了37个问题。
6/9/2025 8:11:34 AM
前端小智
人工智能和知识图谱七:知识图谱在人工智能系统中的优势
知识图谱融入 AI 解决方案后,将带来诸多优势。 这些优势涵盖互操作性、查询功能等技术改进以及可解释性、可信度、减少开发工作量等更高层次的关注点。 本文概述了知识图谱的主要优势,以及它如何补充机器学习模型,助力打造更值得信赖的 AI。
6/9/2025 3:00:00 AM
晓晓