AI在线 AI在线

资讯列表

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

多模态检索是信息理解与获取的关键技术,但其中的跨模态干扰问题一直是一大难题。 可行的解决办法是构建一种统一的多模态表示方式,为此,来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE。 UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。
6/9/2025 8:50:00 AM

RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈

在Dwarkesh Patel主持的节目中,Anthropic的Sholto Douglas、Trenton Bricken等人,一起讨论了Claude 4是如何思考的。 三人私交甚好,聊了2小时20多分钟,主要集中在4个话题:1. 过去一年中人工智能研究的变化;2.
6/9/2025 8:48:00 AM

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。 朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。 该研究基于团队前期发布的 8B 扩散语言模型 LLaDA(国内率先做到真正可用的扩散语言模型,是后续很多研究的主干基础模型),探索了扩散语言模型的偏好对齐方法,提出了方差缩减的偏好优化方法 VRPO,并利用 VRPO 对 LLaDA 进行了强化对齐,推出了 LLaDA 1.5。
6/9/2025 8:47:00 AM

多模态LLM+RAG:突破生成瓶颈的下一代AI架构革命​

译者 | 朱先忠审校 | 重楼通过整合文本、图像、音频等数据,多模态大型语言模型(MLLM)开始突破传统RAG的文本局限,赋予AI感知能力。 其核心架构采用CLIP、Whisper等编码器实现跨模态语义统一,通过投影层对齐多模态信息。 不过,多模态大型语言模型的评估需要综合检索质量、生成忠实度及跨模态一致性等一系列指标实现。
6/9/2025 8:42:23 AM
朱先忠

生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。 有没有这样一个“AI创作大师”,你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢? 这一切,现在通过一个由港科大(广州)和字节联合出品的全新的开源框架——ComfyMind实现了。
6/9/2025 8:40:00 AM

图灵奖得主、AI教父Bengio:我改变了科研方向,哪怕与此前信念背离,也要尽己所能降低AI失控的灾难风险;AGI最快五年降临

编辑 | 云昭6月6日,年逾花甲的三大“AI教父”之一的Yoshua Bengio(小编心中的科研偶像之一),如约出现在2025智源大会上的现场荧幕中。 大师眼中的GPT究竟是什么样子? 我们又该打造怎样的AI?
6/9/2025 8:39:10 AM
云昭

八个数据集全面胜出!思维链推理刷新图学习表现上限

思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了GCoT——首个应用于无文本图数据的类思维链提示学习框架。
6/9/2025 8:37:00 AM

视频生成平台 Runway 举办年度 AI 电影节,6000 部参赛作品决出十强

不过,并非所有作品完全由 AI 生成。参赛门槛要求影片中必须使用 AI 视频技术,但并未规定比例,因此不少作品采用真人实拍与 AI 元素混合的方式呈现。
6/9/2025 8:35:37 AM
清源

你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

ChatGPT将大模型技术推动到「对话」场景,直接引发了AI技术的爆炸式增长。 用户可以先提出一个粗糙的、不明确的问题,再根据模型的回答逐步完善指令、补充细节,多轮对话也催生出「跟AI打电话」等有趣的应用设计。 不过,现有的大模型性能评估基准仍然是基于单轮对话机制,输入的指令也更长,信息更完善,其在真实场景中多轮对话的性能仍然没有得到很好地评估。
6/9/2025 8:30:00 AM

CS专业爆冷,失业率飙至全美第七!毕业生狂卷4年,投1000份简历换0 offer

谁能想到,曾经最受欢迎的大学专业,如今却拥有最高的失业率? 曾经红极一时的CS,时常被评为最受大学生和应届毕业生欢迎的专业。 但是如今,它却成了所有研究领域中失业率最高的专业之一。
6/9/2025 8:28:00 AM

OpenAI 全新 Codex AI 代理或将终结传统 IDE 时代

OpenAI 推出的最新 Codex AI 代理堪称革命性突破。 它与目前市面上的 Windsurf、Cursor 等智能代理工具完全不同,属于全新层次。 只需看它如何自主修复项目中的多个 BUG——没有任何人工干预,轻松解决了37个问题。
6/9/2025 8:11:34 AM
前端小智

人工智能和知识图谱七:知识图谱在人工智能系统中的优势

知识图谱融入 AI 解决方案后,将带来诸多优势。 这些优势涵盖互操作性、查询功能等技术改进以及可解释性、可信度、减少开发工作量等更高层次的关注点。 本文概述了知识图谱的主要优势,以及它如何补充机器学习模型,助力打造更值得信赖的 AI。
6/9/2025 3:00:00 AM
晓晓

谷歌CEO劈柴震撼预言:2030年AI直逼超人智能,80亿人认知被颠覆

谷歌CEO劈柴在近期采访中提到,AI是人类将开发的影响最深远技术,比火或电更重要。 它的进步极快,能力上限未知,最独特的是AI能递归自我改进、自己创造和提升。 图片尤其是如果在AI研究领域达到超人水平,某天能比前一天更好地自我创造,这就像AlphaGo的第37步。
6/9/2025 2:15:00 AM
新智元

简析新一代身份安全解决方案—— AI IAM

统一身份和访问管理(Identity and access management,IAM)是一套体系化的身份安全解决方案,涵盖了技术、策略和流程,主要用于管理用户身份并控制用户对企业资源的合规访问。 在当今“数字优先”的世界中,IAM技术对组织变得越来越重要,因为组织内的员工需要在任何设备(服务)上实现“work-from-anywhere“的访问模式,这就需要比以往更加安全地赋予和验证数字身份,以实现安全的数字连接。 在此背景下,基于先进AI技术构建的新一代IAM解决方案应运而生。
6/9/2025 2:00:00 AM

0产品、0用户、0API!欧洲 AI 创企仅凭 1 段视频狂揽1300万刀

最近,在欧洲 AI 创业地图上,一笔 1300 万美元的种子轮融资格外醒目:没有发布产品、没有用户数据、甚至没有一行可供调用的 API,SpAItial,仅凭一段展示“文本生成 3D 房间”的短视频,就拿到了 Earlybird、Speedinvest 等顶级基金的下注。 这笔融资背后,是一个尚未成型、但注定重要的赛道:文本生成 3D 世界。 SpAItial 由图形学与 AI 研究者 Matthias Niessner 发起,他此前是 Synthesia 的联合创始人,也在慕尼黑工业大学长期从事视觉计算相关研究。
6/9/2025 2:00:00 AM

2025 生成式 AI 大棋局:全球数据报告里的趋势解读

大家好,我是肆〇柒。 今天,我们要深入探讨生成式 AI 如何重塑各行业版图。 这两天看到《AI Global Report: Global Sector Trends on Generative AI》,这份具有价值的报告,无疑是为我们提供了一份以数据为基础的指导。
6/9/2025 2:00:00 AM
肆零柒

肝了30小时,Flux Kontext是我用过最稳、最能干活的AI图像模型!

大家好,我是言川。 继 Gemini、GPT-4o、豆包 AI 等图像模型陆续“用嘴改图”之后,又一款更猛的图像编辑模型来了——Flux Kontext,由 Flux 模型官方团队亲自操刀推出。 无论是角色 / 主体一致性、图像转绘、风格迁移、局部精修,还是图像内文字替换这些 AI 生图的老大难问题,它几乎全都解决了,先看我跑的案例:那么本篇文章,我就带大家把 Flux Kontext 的真实能力拆个底朝天。
6/9/2025 1:37:03 AM
言川Artie

即梦图片3.0叒重磅更新,这可能是对普通人最有用的一次!

即梦的最强 AI 绘图模型图片 3.0,又又又更新了。 内测上线了即梦图片 3.0 的,智能参考,现在,可以垫图了。 MD,这次连设计师的参考图也一键干碎了。
6/9/2025 1:02:33 AM
数字生命卡兹克