AI在线 AI在线

理论

OpenAI 披露:每周有超过一百万人与 ChatGPT 倾诉自杀倾向

10 月 28 日消息,OpenAI 于当地时间周一发布了最新数据,揭示了大量 ChatGPT 用户在与人工智能聊天机器人交流时正面临心理健康问题。 该公司表示,在任意一周内,约有 0.15% 的活跃用户会进行“包含明确自杀计划或意图迹象”的对话。 鉴于 ChatGPT 每周活跃用户超过 8 亿人,这意味着每周有超过 100 万人向其倾诉自杀倾向。
10/28/2025 9:24:23 AM
远洋

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

来自伦敦大学学院(UCL)的初创团队EuniAI开源发布了AI软件智能体Prometheus。 该系统在SWE-bench Verified上取得71.2%的Pass@1成功率,成绩已被官方确认并合并至主榜单。 令人瞩目的是,这一成果来自高校科研团队,却已与产业巨头同台竞技,展现出学术研发在AI工程领域的产业级突破。
10/28/2025 9:22:18 AM

Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了

Thinking Machine最新研究正在被热议! 创始人、OpenAI前CTO Mira Murati亲自转发后,一众围观大佬开始惊叹其研究价值(截不完、根本截不完):图片根据Mira Murati的提炼,原来他们提出了一种让小模型更懂专业领域的LLM(大语言模型)后训练方法——On-Policy Distillation (在线策略蒸馏)。 图片这个方法的精髓,可以打个比方。
10/28/2025 9:21:02 AM

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

古希腊陶器是考古学和艺术史的重要实物证据。 研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。 不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。
10/28/2025 9:19:50 AM

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

祁煜,2023年本科毕业于北京大学信息科学技术学院。 目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。 具身智能是近年来非常火概念。
10/28/2025 9:16:38 AM

世界模型==VQA?机器人不用想象画面,预测语义就够了

众所周知,世界模型是一种让 AI「想象未来」的学习方法。 它可以从大量数据中学习世界的运行规律,然后根据当前状态预测未来可能发生的事情。 这种能力非常关键,因为如果 AI 能对未来做出合理预测,就能提前规划出更聪明、更稳健的行动策略。
10/28/2025 9:13:58 AM

刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次

刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。 在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。
10/28/2025 9:09:51 AM

PyTorch Monarch震撼发布!单控制器模型彻底简化分布式AI工作流程

Meta的PyTorch团队近日发布了Monarch,这是一个革命性的开源框架,专门用于简化跨多个GPU和机器的分布式AI工作流程。 该系统的最大亮点是引入了单控制器模型,让开发者只需一个脚本就能协调整个集群的计算任务,大幅降低了大规模训练和强化学习任务的复杂度,同时保持标准PyTorch代码的编写方式不变。 传统多控制器模式的终结Monarch彻底颠覆了传统的多控制器方法。
10/28/2025 9:07:38 AM
阿丸笔记

「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了

近年来,Text-to-Video(T2V)模型取得显著进展——从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的“世界模型”? 然而,传统基准主要考察图像质量与语义一致性,并不能系统衡量模型对事件因果、物理规律与常识的理解,而这些正是“世界模型”的核心能力。 为此,中山大学、香港理工大学、清华大学与OPPO Research Institute合作,在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。
10/28/2025 8:49:33 AM

美团视频生成模型来了!一出手就是开源SOTA

美团,你是跨界上瘾了是吧! (doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。 模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。
10/28/2025 8:40:00 AM

相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作

能看懂相机参数,并且生成相应视角图片的多模态模型来了。 来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。 它能整合理解相机参数(如角度、视野)与按相机参数生成对应视角图片的能力。
10/28/2025 8:30:00 AM

AI“工作陷阱”:唯有培训能破解的新型生产力杀手

AI为工作者带来了提高效率和生产力的希望,使他们从重复性工作中解放出来,从而能够处理更复杂的任务,但是,随着企业向员工推出AI工具,许多人面临着不同的挑战:AI生成的工作成果适得其反。 AI生成内容的质量在很大程度上取决于与该工具协作人员的技能,而并非每个人都具备这方面的正确技能,这导致斯坦福社交媒体实验室和Betterup实验室创造了“AI工作烂稿(AI workslop)”一词——他们将其定义为“伪装成优秀成果的AI生成的工作内容,但缺乏实质性内容来有意义地推进既定任务”。 Pegasystems公司的CTO Don Schuerman表示:“当企业在错误的时间使用错误的AI时,就会出现AI工作烂稿,即将为创造性和推理而设计的大型语言模型部署到需要精确性、治理性和可靠性的情境中。
10/28/2025 7:00:00 AM
Sarah White

揭秘 MCP Streamable HTTP 协议亲和性的技术内幕

背景传统的 Serverless 平台一般都是面向无状态应用的,通过将请求分发到不同的可以自动扩展的函数实例,从而为应用提供极致的弹性、按量付费等能力。 然而,针对存在会话概念的应用,传统的 Serverless 平台就不能够在后端有多个副本的情况下,将属于某个会话的请求转发到服务该会话的函数实例,从而该类应用无法在不引入外部存储同步会话状态的情况下运行在 Serverless 平台上。 外部存储的引入是有代价的,一方面,某个函数的能扩展的副本数量/会话数量,会受到存储能被多少函数实例并发访问的限制,另外一方面,访问持久化存储/通过网络访问外部存储都会引入额外的开销。
10/28/2025 4:11:00 AM
叶浩田

深刻理解Claude Skills-构建AI时代的组织和个体进化之路-加速从AI Agent到Agentic AI演进

Hello,大家好,我是人月聊IT。 今天接着AI和大模型方面的话题。 即大模型厂商Anthropic最近刚推出的Claude Skills。
10/28/2025 2:33:00 AM
何明璐

从 YAML 到 Markdown:规范驱动开发的演化与 AI 原生范式的崛起

十年前,我们开始用 YAML 编排容器、声明服务、配置 CI/CD;十年后,我们开始用 Markdown 定义 AI 的行为、规则和协作方式。 从 Kubernetes 的 deployment.yaml 到 GitHub 的 .prompt.md、AGENTS.md、SpecKit,我们正经历一次新的"声明式革命"——从声明基础设施,到声明智能。 从云原生到 AI 原生:从 YAML 到 Markdown 的转折在云原生时代,开发者的使命是"让机器理解我们的配置"。
10/28/2025 2:22:00 AM
JImmy Song

最有效的AI幻觉预防技巧:让AI输出更可靠的六个关键方法

如今,AI已成为职场中处理研究、总结报告的常用工具,但“幻觉”问题——即AI编造看似合理却不实的信息,比如虚构链接、伪造数据来源——常常让使用者踩坑。 我曾在研究AI工具应用时,让ChatGPT整合最新报告与案例,它很快生成了一份附带来源链接的详细总结,初看完美可用,可核查后发现近半数链接要么显示404错误,要么跳转至无关网站,甚至指向根本不存在的页面。 后续排查发现,问题并非出在深度搜索功能本身,而是在要求AI重新格式化结果时,受上下文长度限制,AI自行编造了链接。
10/28/2025 2:11:00 AM
大模型之路

揭秘Fathom-DeepResearch:4B小模型如何实现媲美GPT-4o的深度研究能力

揭秘Fathom-DeepResearch:让小模型也能做深度研究的秘密武器论文链接::、研究背景:为什么我们需要更聪明的搜索助手? 想象一下,你想了解一个复杂的问题,比如"某个体育赛事的历史背景和相关人物",你会怎么做? 可能需要在搜索引擎上反复查询,打开无数网页,然后自己整理信息。
10/28/2025 2:11:00 AM
ChallengeHub

九种高级 RAG 技术及其实现方法

本文将探讨 9 种关键的高级检索增强生成 (RAG) 技术,并介绍如何借助相关工具实现它们。 在实际的 AI 应用中,RAG 技术能有效优化 RAG 管道的准确性和灵活性。 从更智能的文本分块(chunking)到混合搜索(hybrid search)和上下文蒸馏(context distillation),这些方法对于提供更快、更准确的响应至关重要。
10/28/2025 2:11:00 AM
ChallengeHub