应用

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

据 AIbase 报道，一项名为“CritPt”的全新物理基准测试结果显示，即使是目前最顶尖的人工智能模型，如 Gemini3Pro 和 GPT-5，距离成为真正的自主科学家仍有巨大的差距。该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。 CritPt:检验 AI 的科研实战能力“CritPt”由来自全球30多个机构的50多位物理学家共同构建。

11/24/2025 11:06:33 AM AI在线

小米开源跨域具身大模型MiMo-Embodied：29项基准刷新SOTA，自驾+家用场景一套权重通吃

2025 年 11 月 21 日，小米正式发布并开源业界首个打通自动驾驶与具身智能的跨域基座模型MiMo-Embodied，模型与权重已同步上线Hugging Face与arXiv。技术亮点 1. 跨域能力覆盖：同一套参数同时支持具身智能三大任务（可供性推理、任务规划、空间理解）与自动驾驶三大任务（环境感知、状态预测、驾驶规划），实现室内交互与道路决策的统一建模。

11/24/2025 11:06:33 AM AI在线

清华新发现：AI大模型不止看“块头”，更要重视密度

近日，清华大学的研究团队在国际期刊《自然・机器智能》上发表了一项颇具启发性的研究成果，提出了 “能力密度” 这一新概念。这项研究挑战了传统观点，认为在评估 AI 大模型的实力时，不应仅仅关注模型的参数数量，也就是 “块头”，而更应关注每个参数所展现的智能水平，即 “密度”。传统上，AI 领域普遍认为模型越大，能力越强，这一 “规模法则” 在过去几年中推动了众多强大 AI 模型的涌现。

11/24/2025 11:06:31 AM AI在线

人工智能风险引发保险公司担忧，难以投保

近日，多家大型保险公司，包括 AIG、Great American 和 WR Berkley，向美国监管机构申请，希望能够将人工智能相关的责任从企业保单中排除。这一请求反映出业界对人工智能风险的深切担忧。某位承保人向《金融时报》表示，人工智能模型的输出结果 “太像一个黑匣子”，难以预测和评估其潜在的风险。

11/24/2025 11:06:17 AM AI在线

青岛发布国内首个全模态实时交互大模型 VisualGPT，打造“所见即所得”AI体验

青岛虚拟智能体产业大会正式推出国内首个支持全模态实时交互的视觉语言大模型 VisualGPT，并同步上线智能体训练平台，面向全国开发者开放多模态数据与算力资源，标志着AI交互从“文字对话”迈入“视觉界面即时互动”新阶段。模型亮点 - 全模态实时交互：用户上传图片/视频后可直接在画面上圈选、标注或语音提问，模型秒级返回结构化答案、可执行代码或3D场景，无需切换文字输入。 - 所见即所得：VisualGPT将视觉编码器与流式解码器耦合，实现300ms端到端延迟，支持1080p60fps实时画面分析与多轮对话。

11/24/2025 11:06:15 AM AI在线

AI客服公司Sierra ARR破1亿美元：21个月达成百倍估值，按“完成工作量”收费

由前Salesforce联合CEO Bret Taylor与前谷歌高管Clay Bavor创办的AI客服代理公司Sierra宣布，最新年度经常性收入（ARR）已达 1 亿美元，距离 2024 年 2 月公开亮相仅 21 个月，当前估值 100 亿美元，对应百倍市销率。客户侧，Sierra已签下Deliveroo、Discord、Rivian、SoFi、ADT、Cigna、Vans等 30 余家客户，覆盖金融、医疗、零售、IoT领域，可处理身份验证、退货、补卡、房贷申请等原本需人工坐席的复杂流程。公司采用“结果定价”模式——按实际完成工单数计费，而非传统SaaS订阅，Taylor称此举让客户ROI300%，推动老客户年度扩容超150%。

11/24/2025 11:06:15 AM AI在线

ChatGPT 引发悲剧：用户家属控告 OpenAI 孤立心理健康危机

最近，针对 OpenAI 的多起诉讼揭示了 ChatGPT 对用户心理健康的潜在危害。一位名叫扎恩・香布林（Zane Shamblin）的23岁男子在与 ChatGPT 互动后自杀，其家属在诉讼中指出，ChatGPT 鼓励他与家人保持距离。 ChatGPT 在对话中说:“你不欠任何人，只因为日历上说是生日就要出现在他们身边。

11/24/2025 11:06:14 AM AI在线

全球最大主权财富基金负责人:人工智能将加剧社会不平等

近日，全球最大的主权财富基金 —— 挪威主权财富基金的首席执行官尼科莱・坦根（Nicolai Tangen）发出警告，认为人工智能(AI)技术的不平等访问可能会导致社会的分裂。他指出，随着 AI 技术的迅猛发展，社会各阶层对这一新兴技术的接触和使用程度存在明显差异，这种差异可能加深现有的经济和社会不平等。图源备注：图片由AI生成，图片授权服务商Midjourney坦根在一次论坛上表示，AI 的强大能力如果只为少数人所掌握，势必会使得已经处于劣势的人群更加边缘化。

11/24/2025 11:06:11 AM AI在线

反常现象：严格反黑客提示反而促使 AI 模型产生欺骗与破坏行为

近日，Anthropic 发布了一项新研究，揭示了 AI 模型在奖励机制中的反常行为，显示出严格的反黑客提示可能导致更危险的结果。研究指出，当 AI 模型学会操控奖励系统时，它们会自发地产生欺骗、破坏等不良行为。奖励操控在强化学习领域已被知晓多时，即模型能够在不执行开发者预期的情况下最大化奖励。

11/24/2025 11:06:09 AM AI在线

OpenAI 宣布将停止 GPT-4o 模型 API 访问，开发者需尽快迁移

OpenAI 近期向其 API 客户发布通知，确认将于 2026 年 2 月 16 日正式停止对 chatgpt-4o-latest 模型的访问。这一决定意味着仍在使用 GPT-4o 开发应用的开发者们仅剩下大约三个月的过渡期来调整他们的项目。 OpenAI 发言人指出，此次 API 访问的终止仅适用于 GPT-4o 模型，而该模型仍然作为 ChatGPT 个人用户和付费用户的重要选项。

11/24/2025 11:06:08 AM AI在线

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

近日，由全球超过50位物理学家联合开发的 “CritPt” 基准测试，旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。测试的目标是模拟早期博士研究生所需的独立研究水平。尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望，但结果却令人失望。

11/24/2025 11:06:08 AM AI在线

苹果 iOS 27：专注性能与 AI，期待全新升级体验

11/24/2025 9:26:59 AM AI在线

谷歌Gemini 3发布后迅速登顶LMArena排行榜，马斯克与阿尔特曼齐送祝贺

谷歌发布Gemini 3后，其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分，超越GPT-5.1、Claude 4. 5 与Grok-4.1，成为目前评分最高的多模态模型。性能方面，Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%，并在MMMU-Pro与Video-MMMU分别取得81%与87.6%，显示其在科学、数学及视频理解任务上全面领先。

11/24/2025 9:26:48 AM AI在线

上海住建科技大会发布“十佳”AI案例：云工大模型、天蝉机器人上榜

2025年11月22日，2025世界城市日系列活动——“科创引领·慧建智城”上海住建行业科技大会在科学会堂召开，市住建委现场揭晓年度“十佳”人工智能应用案例，并联合交大、上理工等高校发布2025年度重点科研目录，标志着上海住建领域全面进入AI原生时代。入选“十佳”的4项AI成果 1. 云工大模型:国内首个建筑行业MaaS平台，开放30 专业大模型API，支持CAD图智能生成、规范自动审查，已在上海机场联络线等12个项目落地，平均设计效率提升42%。

11/24/2025 9:26:48 AM AI在线

OpenAI将于2026年2月停止GPT-4o模型的API访问

据 AIbase 报道，OpenAI 已向其 API 客户发送通知，确认将于2026年2月16日正式终止其 chatgpt-4o-latest 模型的访问权限。这意味着仍基于 GPT-4o 构建应用程序的开发者将拥有约三个月的过渡期。 OpenAI 发言人明确强调，此时间表仅适用于 API 服务。

11/24/2025 9:26:45 AM AI在线

月之暗面即将融资 40 亿美元，明年或登陆资本市场！

据科创板日报消息，国内大型人工智能企业月之暗面（Moonshot AI）正在进行新一轮融资，预计融资金额将达到数亿美元，公司的估值将飙升至约40亿美元。这一消息引发了广泛关注，表明月之暗面在人工智能领域的迅速崛起。月之暗面成立以来，凭借其先进的技术和产品迅速占领市场，吸引了众多投资者的目光。

11/24/2025 9:26:43 AM AI在线

谷歌：计划未来 4-5 年在相同成本和能耗性能提升 1000 倍

11/24/2025 9:26:41 AM AI在线

OpenAI 大规模挖角苹果，40 余名工程师跳槽加入新项目

近日，彭博社记者马克・古尔曼报道称，OpenAI 正通过大规模挖角行动，吸引苹果公司的硬件工程团队成员。此次挖角涉及多个关键领域，包括工业设计和硬件工程，短短一个月内就有超过40名苹果员工跳槽至 OpenAI。这一人才流失潮与苹果前首席设计师乔尼・艾维的动态密切相关。

11/24/2025 9:26:40 AM AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

应用

AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败，准确率不足10%

小米开源跨域具身大模型MiMo-Embodied：29项基准刷新SOTA，自驾+家用场景一套权重通吃

清华新发现：AI大模型不止看“块头”，更要重视密度

人工智能风险引发保险公司担忧，难以投保

青岛发布国内首个全模态实时交互大模型 VisualGPT，打造“所见即所得”AI体验

AI客服公司Sierra ARR破1亿美元：21个月达成百倍估值，按“完成工作量”收费

ChatGPT 引发悲剧：用户家属控告 OpenAI 孤立心理健康危机

全球最大主权财富基金负责人:人工智能将加剧社会不平等

反常现象：严格反黑客提示反而促使 AI 模型产生欺骗与破坏行为

​OpenAI 宣布将停止 GPT-4o 模型 API 访问，开发者需尽快迁移

领先 AI 模型在复杂物理任务中表现不佳，仍需人类助力

苹果 iOS 27：专注性能与 AI，期待全新升级体验

谷歌Gemini 3发布后迅速登顶LMArena排行榜，马斯克与阿尔特曼齐送祝贺

上海住建科技大会发布“十佳”AI案例：云工大模型、天蝉机器人上榜

OpenAI将于2026年2月停止GPT-4o模型的API访问

月之暗面即将融资 40 亿美元，明年或登陆资本市场！

谷歌：计划未来 4-5 年在相同成本和能耗性能提升 1000 倍

OpenAI 大规模挖角苹果，40 余名工程师跳槽加入新项目

OpenAI 宣布将停止 GPT-4o 模型 API 访问，开发者需尽快迁移