理论

AI已经开始自己设计算法，并且超越顶尖人类专家，人类还能做什么？

AI已经开始为自己设计算法，而且发现了比顶尖人类专家更优的算法。这不是科幻，而是正在发生的事实。刚刚，谷歌DeepMind团体的一篇论文登上Nature。

10/28/2025 9:27:04 AM

超越谷歌Banana，字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2

AI图像编辑与生成，正迎来一场体验革命。香港中文大学，香港科技大学，香港大学和字节跳动共同研发的系统DreamOmni2，实现图像编辑与生成领域最新SOTA。指令遵循能力全面领先，真正做到指哪打哪。

10/28/2025 9:25:04 AM

OpenAI 披露：每周有超过一百万人与 ChatGPT 倾诉自杀倾向

10 月 28 日消息，OpenAI 于当地时间周一发布了最新数据，揭示了大量 ChatGPT 用户在与人工智能聊天机器人交流时正面临心理健康问题。该公司表示，在任意一周内，约有 0.15% 的活跃用户会进行“包含明确自杀计划或意图迹象”的对话。鉴于 ChatGPT 每周活跃用户超过 8 亿人，这意味着每周有超过 100 万人向其倾诉自杀倾向。

10/28/2025 9:24:23 AM 远洋

开源即登榜！登顶全球前十AI编程智能体，UCL初创团队开源Prometheus

来自伦敦大学学院（UCL）的初创团队EuniAI开源发布了AI软件智能体Prometheus。该系统在SWE-bench Verified上取得71.2%的Pass@1成功率，成绩已被官方确认并合并至主榜单。令人瞩目的是，这一成果来自高校科研团队，却已与产业巨头同台竞技，展现出学术研发在AI工程领域的产业级突破。

10/28/2025 9:22:18 AM

Thinking Machine新研究刷屏！结合RL+微调优势，小模型训练更具性价比了

10/28/2025 9:21:02 AM

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

古希腊陶器是考古学和艺术史的重要实物证据。研究者需要从单件陶器中提取多层信息：材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境：一是缺乏领域知识（模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念）；二是仅靠监督微调（SFT）容易学到「表层捷径」，在遇到组合性、推理性或少样本问题时就失效。

10/28/2025 9:19:50 AM

大模型在具身推理上「翻车」了？4496 道题全面揭示短板

祁煜，2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生，研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。具身智能是近年来非常火概念。

10/28/2025 9:16:38 AM

世界模型==VQA？机器人不用想象画面，预测语义就够了

众所周知，世界模型是一种让 AI「想象未来」的学习方法。它可以从大量数据中学习世界的运行规律，然后根据当前状态预测未来可能发生的事情。这种能力非常关键，因为如果 AI 能对未来做出合理预测，就能提前规划出更聪明、更稳健的行动策略。

10/28/2025 9:13:58 AM

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

10/28/2025 9:09:51 AM

PyTorch Monarch震撼发布！单控制器模型彻底简化分布式AI工作流程

Meta的PyTorch团队近日发布了Monarch，这是一个革命性的开源框架，专门用于简化跨多个GPU和机器的分布式AI工作流程。该系统的最大亮点是引入了单控制器模型，让开发者只需一个脚本就能协调整个集群的计算任务，大幅降低了大规模训练和强化学习任务的复杂度，同时保持标准PyTorch代码的编写方式不变。传统多控制器模式的终结Monarch彻底颠覆了传统的多控制器方法。

10/28/2025 9:07:38 AM 阿丸笔记

「世界理解」维度看AI视频生成：Veo3和Sora2水平如何？新基准来了

近年来，Text-to-Video（T2V）模型取得显著进展——从静态帧质量到连贯的视频叙事，模型能力大幅提升，尤其是最近Sora2的爆火，让人们开始想象，T2V Model是否已经是一个真正的“世界模型”？然而，传统基准主要考察图像质量与语义一致性，并不能系统衡量模型对事件因果、物理规律与常识的理解，而这些正是“世界模型”的核心能力。为此，中山大学、香港理工大学、清华大学与OPPO Research Institute合作，在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。

10/28/2025 8:49:33 AM

美团视频生成模型来了！一出手就是开源SOTA

美团，你是跨界上瘾了是吧！（doge）没错，最新开源SOTA视频模型，又是来自这家“送外卖”的公司。模型名为LongCat-Video，参数13.6B，支持文生/图生视频，视频时长可达数分钟。

10/28/2025 8:40:00 AM

相机参数秒变图片！新模型打通理解生成壁垒，支持任意视角图像创作

能看懂相机参数，并且生成相应视角图片的多模态模型来了。来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。它能整合理解相机参数（如角度、视野）与按相机参数生成对应视角图片的能力。

10/28/2025 8:30:00 AM

AI“工作陷阱”：唯有培训能破解的新型生产力杀手

AI为工作者带来了提高效率和生产力的希望，使他们从重复性工作中解放出来，从而能够处理更复杂的任务，但是，随着企业向员工推出AI工具，许多人面临着不同的挑战：AI生成的工作成果适得其反。 AI生成内容的质量在很大程度上取决于与该工具协作人员的技能，而并非每个人都具备这方面的正确技能，这导致斯坦福社交媒体实验室和Betterup实验室创造了“AI工作烂稿(AI workslop)”一词——他们将其定义为“伪装成优秀成果的AI生成的工作内容，但缺乏实质性内容来有意义地推进既定任务”。 Pegasystems公司的CTO Don Schuerman表示：“当企业在错误的时间使用错误的AI时，就会出现AI工作烂稿，即将为创造性和推理而设计的大型语言模型部署到需要精确性、治理性和可靠性的情境中。

10/28/2025 7:00:00 AM Sarah White

揭秘 MCP Streamable HTTP 协议亲和性的技术内幕

背景传统的 Serverless 平台一般都是面向无状态应用的，通过将请求分发到不同的可以自动扩展的函数实例，从而为应用提供极致的弹性、按量付费等能力。然而，针对存在会话概念的应用，传统的 Serverless 平台就不能够在后端有多个副本的情况下，将属于某个会话的请求转发到服务该会话的函数实例，从而该类应用无法在不引入外部存储同步会话状态的情况下运行在 Serverless 平台上。外部存储的引入是有代价的，一方面，某个函数的能扩展的副本数量/会话数量，会受到存储能被多少函数实例并发访问的限制，另外一方面，访问持久化存储/通过网络访问外部存储都会引入额外的开销。

10/28/2025 4:11:00 AM 叶浩田

深刻理解Claude Skills-构建AI时代的组织和个体进化之路-加速从AI Agent到Agentic AI演进

Hello，大家好，我是人月聊IT。今天接着AI和大模型方面的话题。即大模型厂商Anthropic最近刚推出的Claude Skills。

10/28/2025 2:33:00 AM 何明璐

从 YAML 到 Markdown：规范驱动开发的演化与 AI 原生范式的崛起

十年前，我们开始用 YAML 编排容器、声明服务、配置 CI/CD；十年后，我们开始用 Markdown 定义 AI 的行为、规则和协作方式。从 Kubernetes 的 deployment.yaml 到 GitHub 的 .prompt.md、AGENTS.md、SpecKit，我们正经历一次新的"声明式革命"——从声明基础设施，到声明智能。从云原生到 AI 原生：从 YAML 到 Markdown 的转折在云原生时代，开发者的使命是"让机器理解我们的配置"。

10/28/2025 2:22:00 AM JImmy Song

最有效的AI幻觉预防技巧：让AI输出更可靠的六个关键方法

如今，AI已成为职场中处理研究、总结报告的常用工具，但“幻觉”问题——即AI编造看似合理却不实的信息，比如虚构链接、伪造数据来源——常常让使用者踩坑。我曾在研究AI工具应用时，让ChatGPT整合最新报告与案例，它很快生成了一份附带来源链接的详细总结，初看完美可用，可核查后发现近半数链接要么显示404错误，要么跳转至无关网站，甚至指向根本不存在的页面。后续排查发现，问题并非出在深度搜索功能本身，而是在要求AI重新格式化结果时，受上下文长度限制，AI自行编造了链接。

10/28/2025 2:11:00 AM 大模型之路

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉