资讯列表

分类

标签

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

多模态检索是信息理解与获取的关键技术，但其中的跨模态干扰问题一直是一大难题。可行的解决办法是构建一种统一的多模态表示方式，为此，来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE。 UNITE的核心目标，就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。

6/9/2025 8:50:00 AM

RLHF已死，RLVR引爆AGI革命！Claude 4核心成员万字对谈

在Dwarkesh Patel主持的节目中，Anthropic的Sholto Douglas、Trenton Bricken等人，一起讨论了Claude 4是如何思考的。三人私交甚好，聊了2小时20多分钟，主要集中在4个话题：1. 过去一年中人工智能研究的变化；2.

6/9/2025 8:48:00 AM

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。该研究基于团队前期发布的 8B 扩散语言模型 LLaDA（国内率先做到真正可用的扩散语言模型，是后续很多研究的主干基础模型），探索了扩散语言模型的偏好对齐方法，提出了方差缩减的偏好优化方法 VRPO，并利用 VRPO 对 LLaDA 进行了强化对齐，推出了 LLaDA 1.5。

6/9/2025 8:47:00 AM

多模态LLM+RAG：突破生成瓶颈的下一代AI架构革命

译者 | 朱先忠审校 | 重楼通过整合文本、图像、音频等数据，多模态大型语言模型（MLLM）开始突破传统RAG的文本局限，赋予AI感知能力。其核心架构采用CLIP、Whisper等编码器实现跨模态语义统一，通过投影层对齐多模态信息。不过，多模态大型语言模型的评估需要综合检索质量、生成忠实度及跨模态一致性等一系列指标实现。

6/9/2025 8:42:23 AM

朱先忠

生图效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广&字节全新框架

图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。有没有这样一个“AI创作大师”，你只需要用一句话描述脑海中的灵感，它就能自动为你搭建流程、选择工具、反复修改，最终交付高质量的视觉作品呢？这一切，现在通过一个由港科大（广州）和字节联合出品的全新的开源框架——ComfyMind实现了。

6/9/2025 8:40:00 AM

图灵奖得主、AI教父Bengio：我改变了科研方向，哪怕与此前信念背离，也要尽己所能降低AI失控的灾难风险；AGI最快五年降临

编辑｜云昭6月6日，年逾花甲的三大“AI教父”之一的Yoshua Bengio（小编心中的科研偶像之一），如约出现在2025智源大会上的现场荧幕中。大师眼中的GPT究竟是什么样子？我们又该打造怎样的AI？

6/9/2025 8:39:10 AM

云昭

八个数据集全面胜出！思维链推理刷新图学习表现上限

思维链提示学习来了！由于图数据拥有复杂的非线性结构和缺少文本信息，语言模型中的思维链（Chain-of-Thought，CoT）提示学习方法难以简单直接地应用于图数据。基于此，来自新加坡管理大学和中国科学技术大学的研究者们提出了GCoT——首个应用于无文本图数据的类思维链提示学习框架。

6/9/2025 8:37:00 AM

视频生成平台 Runway 举办年度 AI 电影节，6000 部参赛作品决出十强

不过，并非所有作品完全由 AI 生成。参赛门槛要求影片中必须使用 AI 视频技术，但并未规定比例，因此不少作品采用真人实拍与 AI 元素混合的方式呈现。

6/9/2025 8:35:37 AM

清源

你永远叫不醒装睡的大模型！多轮对话全军覆没，性能暴跌39%

ChatGPT将大模型技术推动到「对话」场景，直接引发了AI技术的爆炸式增长。用户可以先提出一个粗糙的、不明确的问题，再根据模型的回答逐步完善指令、补充细节，多轮对话也催生出「跟AI打电话」等有趣的应用设计。不过，现有的大模型性能评估基准仍然是基于单轮对话机制，输入的指令也更长，信息更完善，其在真实场景中多轮对话的性能仍然没有得到很好地评估。

6/9/2025 8:30:00 AM

CS专业爆冷，失业率飙至全美第七！毕业生狂卷4年，投1000份简历换0 offer

谁能想到，曾经最受欢迎的大学专业，如今却拥有最高的失业率？曾经红极一时的CS，时常被评为最受大学生和应届毕业生欢迎的专业。但是如今，它却成了所有研究领域中失业率最高的专业之一。

6/9/2025 8:28:00 AM

OpenAI 全新 Codex AI 代理或将终结传统 IDE 时代

OpenAI 推出的最新 Codex AI 代理堪称革命性突破。它与目前市面上的 Windsurf、Cursor 等智能代理工具完全不同，属于全新层次。只需看它如何自主修复项目中的多个 BUG——没有任何人工干预，轻松解决了37个问题。

6/9/2025 8:11:34 AM

前端小智

人工智能和知识图谱七：知识图谱在人工智能系统中的优势

知识图谱融入 AI 解决方案后，将带来诸多优势。这些优势涵盖互操作性、查询功能等技术改进以及可解释性、可信度、减少开发工作量等更高层次的关注点。本文概述了知识图谱的主要优势，以及它如何补充机器学习模型，助力打造更值得信赖的 AI。

6/9/2025 3:00:00 AM

晓晓

谷歌CEO劈柴震撼预言：2030年AI直逼超人智能，80亿人认知被颠覆

谷歌CEO劈柴在近期采访中提到，AI是人类将开发的影响最深远技术，比火或电更重要。它的进步极快，能力上限未知，最独特的是AI能递归自我改进、自己创造和提升。图片尤其是如果在AI研究领域达到超人水平，某天能比前一天更好地自我创造，这就像AlphaGo的第37步。

6/9/2025 2:15:00 AM

新智元

简析新一代身份安全解决方案—— AI IAM

统一身份和访问管理（Identity and access management，IAM）是一套体系化的身份安全解决方案，涵盖了技术、策略和流程，主要用于管理用户身份并控制用户对企业资源的合规访问。在当今“数字优先”的世界中，IAM技术对组织变得越来越重要，因为组织内的员工需要在任何设备（服务）上实现“work-from-anywhere“的访问模式，这就需要比以往更加安全地赋予和验证数字身份，以实现安全的数字连接。在此背景下，基于先进AI技术构建的新一代IAM解决方案应运而生。

6/9/2025 2:00:00 AM

0产品、0用户、0API！欧洲 AI 创企仅凭 1 段视频狂揽1300万刀

最近，在欧洲 AI 创业地图上，一笔 1300 万美元的种子轮融资格外醒目：没有发布产品、没有用户数据、甚至没有一行可供调用的 API，SpAItial，仅凭一段展示“文本生成 3D 房间”的短视频，就拿到了 Earlybird、Speedinvest 等顶级基金的下注。这笔融资背后，是一个尚未成型、但注定重要的赛道：文本生成 3D 世界。 SpAItial 由图形学与 AI 研究者 Matthias Niessner 发起，他此前是 Synthesia 的联合创始人，也在慕尼黑工业大学长期从事视觉计算相关研究。

6/9/2025 2:00:00 AM

2025 生成式 AI 大棋局：全球数据报告里的趋势解读

大家好，我是肆〇柒。今天，我们要深入探讨生成式 AI 如何重塑各行业版图。这两天看到《AI Global Report: Global Sector Trends on Generative AI》，这份具有价值的报告，无疑是为我们提供了一份以数据为基础的指导。

6/9/2025 2:00:00 AM

肆零柒

肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！

大家好，我是言川。继 Gemini、GPT-4o、豆包 AI 等图像模型陆续“用嘴改图”之后，又一款更猛的图像编辑模型来了——Flux Kontext，由 Flux 模型官方团队亲自操刀推出。无论是角色 / 主体一致性、图像转绘、风格迁移、局部精修，还是图像内文字替换这些 AI 生图的老大难问题，它几乎全都解决了，先看我跑的案例：那么本篇文章，我就带大家把 Flux Kontext 的真实能力拆个底朝天。

6/9/2025 1:37:03 AM

言川Artie

即梦图片3.0叒重磅更新，这可能是对普通人最有用的一次！

即梦的最强 AI 绘图模型图片 3.0，又又又更新了。内测上线了即梦图片 3.0 的，智能参考，现在，可以垫图了。 MD，这次连设计师的参考图也一键干碎了。

6/9/2025 1:02:33 AM

数字生命卡兹克

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science 腾讯 Agent Claude 芯片 Stable Diffusion 具身智能蛋白质 xAI 开发者生成式人形机器人神经网络机器学习 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 字节跳动工具华为 AGI 计算大型语言模型 AI设计搜索生成式AI 视频生成亚马逊 DeepMind AI模型特斯拉场景深度学习 Transformer 架构 MCP Copilot 编程视觉

资讯列表

打破跨模态干扰，快手东北大学联合提出统一多模态框架，横扫多模态检索基准

RLHF已死，RLVR引爆AGI革命！Claude 4核心成员万字对谈

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

多模态LLM+RAG：突破生成瓶颈的下一代AI架构革命​

生图效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广&字节全新框架

图灵奖得主、AI教父Bengio：我改变了科研方向，哪怕与此前信念背离，也要尽己所能降低AI失控的灾难风险；AGI最快五年降临

八个数据集全面胜出！思维链推理刷新图学习表现上限

视频生成平台 Runway 举办年度 AI 电影节，6000 部参赛作品决出十强

你永远叫不醒装睡的大模型！多轮对话全军覆没，性能暴跌39%

CS专业爆冷，失业率飙至全美第七！毕业生狂卷4年，投1000份简历换0 offer

OpenAI 全新 Codex AI 代理或将终结传统 IDE 时代

人工智能和知识图谱七：知识图谱在人工智能系统中的优势

谷歌CEO劈柴震撼预言：2030年AI直逼超人智能，80亿人认知被颠覆

简析新一代身份安全解决方案—— AI IAM

0产品、0用户、0API！欧洲 AI 创企仅凭 1 段视频狂揽1300万刀

2025 生成式 AI 大棋局：全球数据报告里的趋势解读

肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！

即梦图片3.0叒重磅更新，这可能是对普通人最有用的一次！

多模态LLM+RAG：突破生成瓶颈的下一代AI架构革命