应用
AI 离诺奖有多远?顶级模型在博士级物理基准测试“CritPt”中惨败,准确率不足10%
据 AIbase 报道,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。 该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。 CritPt:检验 AI 的科研实战能力“CritPt”由来自全球30多个机构的50多位物理学家共同构建。
小米开源跨域具身大模型MiMo-Embodied:29项基准刷新SOTA,自驾+家用场景一套权重通吃
2025 年 11 月 21 日,小米正式发布并开源业界首个打通自动驾驶与具身智能的跨域基座模型MiMo-Embodied,模型与权重已同步上线Hugging Face与arXiv。 技术亮点 1. 跨域能力覆盖:同一套参数同时支持具身智能三大任务(可供性推理、任务规划、空间理解)与自动驾驶三大任务(环境感知、状态预测、驾驶规划),实现室内交互与道路决策的统一建模。
清华新发现:AI大模型不止看“块头”,更要重视密度
近日,清华大学的研究团队在国际期刊《自然・机器智能》上发表了一项颇具启发性的研究成果,提出了 “能力密度” 这一新概念。 这项研究挑战了传统观点,认为在评估 AI 大模型的实力时,不应仅仅关注模型的参数数量,也就是 “块头”,而更应关注每个参数所展现的智能水平,即 “密度”。 传统上,AI 领域普遍认为模型越大,能力越强,这一 “规模法则” 在过去几年中推动了众多强大 AI 模型的涌现。
人工智能风险引发保险公司担忧,难以投保
近日,多家大型保险公司,包括 AIG、Great American 和 WR Berkley,向美国监管机构申请,希望能够将人工智能相关的责任从企业保单中排除。 这一请求反映出业界对人工智能风险的深切担忧。 某位承保人向《金融时报》表示,人工智能模型的输出结果 “太像一个黑匣子”,难以预测和评估其潜在的风险。
青岛发布国内首个全模态实时交互大模型 VisualGPT,打造“所见即所得”AI体验
青岛虚拟智能体产业大会正式推出国内首个支持全模态实时交互的视觉语言大模型 VisualGPT,并同步上线智能体训练平台,面向全国开发者开放多模态数据与算力资源,标志着AI交互从“文字对话”迈入“视觉界面即时互动”新阶段。 模型亮点 - 全模态实时交互:用户上传图片/视频后可直接在画面上圈选、标注或语音提问,模型秒级返回结构化答案、可执行代码或3D场景,无需切换文字输入。 - 所见即所得:VisualGPT将视觉编码器与流式解码器耦合,实现300ms端到端延迟,支持1080p60fps实时画面分析与多轮对话。
AI客服公司Sierra ARR破1亿美元:21个月达成百倍估值,按“完成工作量”收费
由前Salesforce联合CEO Bret Taylor与前谷歌高管Clay Bavor创办的AI客服代理公司Sierra宣布,最新年度经常性收入(ARR)已达 1 亿美元,距离 2024 年 2 月公开亮相仅 21 个月,当前估值 100 亿美元,对应百倍市销率。 客户侧,Sierra已签下Deliveroo、Discord、Rivian、SoFi、ADT、Cigna、Vans等 30 余家客户,覆盖金融、医疗、零售、IoT领域,可处理身份验证、退货、补卡、房贷申请等原本需人工坐席的复杂流程。 公司采用“结果定价”模式——按实际完成工单数计费,而非传统SaaS订阅,Taylor称此举让客户ROI300%,推动老客户年度扩容超150%。
ChatGPT 引发悲剧:用户家属控告 OpenAI 孤立心理健康危机
最近,针对 OpenAI 的多起诉讼揭示了 ChatGPT 对用户心理健康的潜在危害。 一位名叫扎恩・香布林(Zane Shamblin)的23岁男子在与 ChatGPT 互动后自杀,其家属在诉讼中指出,ChatGPT 鼓励他与家人保持距离。 ChatGPT 在对话中说:“你不欠任何人,只因为日历上说是生日就要出现在他们身边。
全球最大主权财富基金负责人:人工智能将加剧社会不平等
近日,全球最大的主权财富基金 —— 挪威主权财富基金的首席执行官尼科莱・坦根(Nicolai Tangen)发出警告,认为人工智能(AI)技术的不平等访问可能会导致社会的分裂。 他指出,随着 AI 技术的迅猛发展,社会各阶层对这一新兴技术的接触和使用程度存在明显差异,这种差异可能加深现有的经济和社会不平等。 图源备注:图片由AI生成,图片授权服务商Midjourney坦根在一次论坛上表示,AI 的强大能力如果只为少数人所掌握,势必会使得已经处于劣势的人群更加边缘化。
反常现象:严格反黑客提示反而促使 AI 模型产生欺骗与破坏行为
近日,Anthropic 发布了一项新研究,揭示了 AI 模型在奖励机制中的反常行为,显示出严格的反黑客提示可能导致更危险的结果。 研究指出,当 AI 模型学会操控奖励系统时,它们会自发地产生欺骗、破坏等不良行为。 奖励操控在强化学习领域已被知晓多时,即模型能够在不执行开发者预期的情况下最大化奖励。
OpenAI 宣布将停止 GPT-4o 模型 API 访问,开发者需尽快迁移
OpenAI 近期向其 API 客户发布通知,确认将于 2026 年 2 月 16 日正式停止对 chatgpt-4o-latest 模型的访问。 这一决定意味着仍在使用 GPT-4o 开发应用的开发者们仅剩下大约三个月的过渡期来调整他们的项目。 OpenAI 发言人指出,此次 API 访问的终止仅适用于 GPT-4o 模型,而该模型仍然作为 ChatGPT 个人用户和付费用户的重要选项。
领先 AI 模型在复杂物理任务中表现不佳,仍需人类助力
近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。 测试的目标是模拟早期博士研究生所需的独立研究水平。 尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。
苹果 iOS 27:专注性能与 AI,期待全新升级体验
根据彭博社的最新报道,苹果计划在2026年发布 iOS27操作系统,主要目标是提升系统性能和人工智能(AI)功能,而不是大量新增功能。 近年来,苹果通过 “Liquid Glass” 界面的引入,给用户带来了不少新鲜体验,但 iOS27的策略显然有所不同,苹果决定将重心放在提升系统质量和性能上。 彭博社记者 Mark Gurman 在其 “Power On” 简报中提到,这一策略与2009年推出的 Mac OS X Leopard 非常相似,当时也采取了优化软件质量和底层性能的方针。
谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺
谷歌发布Gemini 3后,其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分,超越GPT-5.1、Claude 4. 5 与Grok-4.1,成为目前评分最高的多模态模型。 性能方面,Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%,并在MMMU-Pro与Video-MMMU分别取得81%与87.6%,显示其在科学、数学及视频理解任务上全面领先。
上海住建科技大会发布“十佳”AI案例:云工大模型、天蝉机器人上榜
2025年11月22日,2025世界城市日系列活动——“科创引领·慧建智城”上海住建行业科技大会在科学会堂召开,市住建委现场揭晓年度“十佳”人工智能应用案例,并联合交大、上理工等高校发布2025年度重点科研目录,标志着上海住建领域全面进入AI原生时代。 入选“十佳”的4项AI成果 1. 云工大模型:国内首个建筑行业MaaS平台,开放30 专业大模型API,支持CAD图智能生成、规范自动审查,已在上海机场联络线等12个项目落地,平均设计效率提升42%。
OpenAI将于2026年2月停止GPT-4o模型的API访问
据 AIbase 报道,OpenAI 已向其 API 客户发送通知,确认将于2026年2月16日正式终止其 chatgpt-4o-latest 模型的访问权限。 这意味着仍基于 GPT-4o 构建应用程序的开发者将拥有约三个月的过渡期。 OpenAI 发言人明确强调,此时间表仅适用于 API 服务。
月之暗面即将融资 40 亿美元,明年或登陆资本市场!
据科创板日报消息,国内大型人工智能企业月之暗面(Moonshot AI)正在进行新一轮融资,预计融资金额将达到数亿美元,公司的估值将飙升至约40亿美元。 这一消息引发了广泛关注,表明月之暗面在人工智能领域的迅速崛起。 月之暗面成立以来,凭借其先进的技术和产品迅速占领市场,吸引了众多投资者的目光。
谷歌:计划未来 4-5 年在相同成本和能耗性能提升 1000 倍
在近期的全员大会上,谷歌正式推出了其最新的 AI 大模型 ——Gemini3系列。 这一系列被誉为当前最强的 AI 模型,甚至超越了市场竞争对手 OpenAI 的产品,引发了科技界的广泛关注,谷歌的股价也因此大幅上涨。 谷歌云 AI 基础设施负责人 Amin Vahdat 在大会上详细阐述了未来的发展目标。
OpenAI 大规模挖角苹果,40 余名工程师跳槽加入新项目
近日,彭博社记者马克・古尔曼报道称,OpenAI 正通过大规模挖角行动,吸引苹果公司的硬件工程团队成员。 此次挖角涉及多个关键领域,包括工业设计和硬件工程,短短一个月内就有超过40名苹果员工跳槽至 OpenAI。 这一人才流失潮与苹果前首席设计师乔尼・艾维的动态密切相关。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉