资讯列表

分类

标签

让推荐系统听懂你：自然语言命令如何打破“猜你喜欢”的困局

大家好，我是肆〇柒。你的女友是否曾对着满屏“短裙”无奈点击“不喜欢”，却无法告诉系统“我想要一条适合秋天的长裙”？这种推荐系统的“失语症”，正是阿里巴巴集团联合中国人民大学、中国科学院大学最新研究《Interactive Recommendation Agent with Active User Commands》试图解决的核心问题。

10/13/2025 9:18:11 AM 肆零柒

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍

IMO、IOI之后，AI再夺奥赛冠军。刚刚，在国际天文与天体物理奥林匹克竞赛测试中，GPT-5和Gemini 2.5 Pro达到金牌水平！在理论考试上，Gemini 2.5 Pro总体得分85.6%，GPT-5总体得分84.2%；在数据分析考试中：GPT-5总体得分88.5%，Gemini 2.5 Pro总体得分75.7%。

10/13/2025 9:13:00 AM

Bug变奖励：AI的小失误，揭开创造力真相！

你一定见过那些奇怪的AI画：人物手上多出几根手指、脸部细节怪异，却又带着某种说不出的新鲜感。这让人产生一个疑问：扩散模型明明只「复刻」，为什么还能画出前所未见的作品？最新一项研究给出了答案：其实，AI的创造力并非「神来之笔」，而是模型架构的副作用。

10/13/2025 9:12:00 AM

告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星

核心突破：首次将LLM推理中的P/D分离思想扩展至多模态场景，提出EPD（Encoder-Prefill-Decode）三阶段解耦，并通过「空分复用」彻底解决编码器引发的行头阻塞问题。随着多模态大语言模型（MLLM）广泛应用于高分辨率图像理解、长视频分析等场景，其推理流程中的多模态编码（Encoding）阶段正成为性能瓶颈。当前主流系统（如vLLM）在服务MLLM时，仍沿用「时间复用」（time-multiplexing）策略：GPU先执行视觉/音频编码器，完成后才切换上下文运行文本解码器。

10/13/2025 9:10:00 AM

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

那边OpenAI的Sora2还没全面开放，这边国内团队已经上线了自己的“特色打法”。清华特奖选手创办的Sand.ai，上线了音画同步视频模型GAGA-1。你可以把它理解为：一个专门练“嘴功”和“表演感”的视频生成模型：怎么样，奥特曼看了这视频都得说一句：好家伙！

10/13/2025 9:02:00 AM

拒绝小扎15亿美元offer的大佬，还是加入Meta了

那个拒绝了小扎15亿美元薪酬包的机器学习大神，还是加入Meta了。 OpenAI前CTO Mira Murati创业公司Thinking Machines Lab证实，联创、首席架构师Andrew Tulloch已经离职去了Meta。按照公司发言人的说法，Tulloch离职的理由是“出于个人原因决定走一条不同的道路”，其本人则未给出回应。

10/13/2025 9:00:00 AM

破解AI唇语同步密码：SyncNet论文核心原理解析

译者 | 朱先忠审校 | 重楼简介你有没有看过配音糟糕的电影，嘴唇动作和台词不同步？或者在视频通话中，对方的嘴型和声音不同步？这些同步问题不仅仅是烦人，而是视频制作、广播和实时通信中一个真正的问题。

10/13/2025 9:00:00 AM 朱先忠

为何上下文成为人工智能领域的“新贵”：从 RAG 到上下文工程

译者 | 晶颜审校 | 重楼三个月前，我们的生产系统遭遇了一次严重故障，其根源并非代码缺陷或基础设施故障，而是源于对人工智能系统优化目标的根本性误解。此前，我们搭建了一套自认为具备先进水平的文档分析流程，整合了检索增强生成（RAG）、向量嵌入、语义搜索及精细调优的重排序功能。在演示场景中，该系统能够精准且富有说服力地回答关于客户监管文件的各类问题，但投入实际运行后，却频繁出现回答与上下文完全脱节的问题。

10/13/2025 8:00:00 AM

混元开源之力：Spring-Ai-hunyuan 项目功能升级与实战体验

今天咱们继续聊聊 spring-ai-hunyuan 这个项目。上次我们兼容了 spring-ai 的 1.0.0 正式版本之后，就暂时放了一阵子，没怎么动。最近倒是收到不少小伙伴反馈，说混元的思考链功能为什么不返回结果。

10/13/2025 7:27:37 AM 灵墨AI探索室

Hinton暴论：AI已经有意识，它自己不知道而已

10/13/2025 5:00:00 AM 量子位

别只会用 ChatGPT！前端 + AI，你必须要会这些！

Hello，大家好，我是 Sunday。最近很多同学特别关注 AI 相关的领域。 c但是，AI 技术发展太快了，AIGC、RAG、Agent、Function Call、MCP 等等的各种热词层出不穷的。

10/13/2025 2:00:00 AM 程序员Sunday

快手KAT-Dev-72B-Exp震撼发布！74.6%解决率碾压GPT-5，编程Agent新王者

你有没有想过，什么时候一个国产开源模型能在编程领域真正"碾压"GPT-5？这个问题的答案，快手给出了。昨天看到快手开源KAT-Dev-72B-Exp的消息时，我第一反应是——这数据是不是搞错了？

10/13/2025 12:00:05 AM 阿丸笔记

「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

这几天，关于「微调已死」的言论吸引了学术圈的广泛关注。一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering（智能体 / 主动式上下文工程）的技术，让语言模型无需微调也能实现自我提升！其实，在更早的时候，谷歌一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文提出了一个与 Agentic Context Engineering 类似的概念 ——ReasoningBank，用于智能体系统的创新记忆框架，从智能体自身判断的成功和失败经验中提炼并组织记忆项，无需真实标签。

10/12/2025 4:09:00 PM 机器之心

硅谷CEO们高喊AI威胁论，「5年内失业率飙升至20%」，但95%AI项目赔本赚吆喝

10/12/2025 4:06:00 PM 机器之心

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

扩散语言模型（Diffusion Language Models，DLM）一直以来都令研究者颇感兴趣，因为与必须按从左到右顺序生成的自回归模型（Autoregressive, AR）不同，DLM 能实现并行生成，这在理论上可以实现更快的生成速度，也能让模型基于前后文更好地理解生成语境。然而，尽管其潜力巨大，DLM 的训练仍然充满挑战，主要原因是它在 scaling 上的效率相对低于 AR 模型。例如，直接训练 DLM 需要在有限的数据集上进行更多次迭代，才能超越直接训练的 AR 模型。

10/12/2025 4:00:00 PM 机器之心

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为 CISPA 教授张阳。引言回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。

10/12/2025 3:51:00 PM 机器之心

曾拒15亿美金，超级天才Andrew Tulloch重返Meta，Thinking Machines Lab痛失联创

曾豪拒扎克伯格15亿美元薪酬，最终还是选择重返Meta，是钱的事儿吗？扎克伯格今年的挖角动作不断。在今年八月，扎克伯格最具有戏剧性的挖角动作：向 OpenAI 前首席技术官 Mira Murati 创立的公司 Thinking Machines Lab 下手，开出了非常高的价码但都惨遭拒绝。

10/12/2025 3:47:00 PM 机器之心

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。 RL 究竟能为 VLA 带来哪些独特的泛化优势？

10/12/2025 3:44:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉