测试

训练1000样本就能超越o1，李飞飞等人画出AI扩展新曲线

跟大模型说：要多想。今年 1 月，DeepSeek R1 引爆了全球科技界，它创新的方法，大幅简化的算力需求撼动了英伟达万亿市值，更引发了全行业的反思。在通往 AGI（通用人工智能）的路上，我们现在不必一味扩大算力规模，更高效的新方法带来了更多的创新可能。

2/5/2025 2:32:00 PM 机器之心

28年AGI撞上数据墙，以后全靠测试时计算？CMU详解优化原理

2025年主导AI的将是第3代scaling law：测试时计算。正如Michael Dell转述所言：第一代scaling：预训练像读大学第二代scaling：微调像读博士第三代scaling：测试时计算就像深度思考和推理近日，计算机强校CMU机器学习系，发表博客文章解释LLM测试时计算优化问题，特别是涉及到的元强化学习（meta-RL）问题。文章亮点如下：监督学习只是在训练模型「答案是什么」，只要学习「如何解答」，模型泛化性会更好。

1/27/2025 12:34:02 PM 新智元

史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1

史上最难的大模型测试集来了！包括o1在内，没有任何一个模型得分超过10%。题目来自500多家机构的1000多名学者，最终入围的题目有3000多道，全部都是研究生及以上难度。

1/24/2025 3:03:27 PM 量子位

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

1/20/2025 8:46:00 AM 量子位

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

大模型几乎成了工作、学习的必备助手，但其本质仍然只是一个统计模型，无论生成的内容再怎么流畅，也难改其胡说八道的老毛病。在大部分应用场景下，用户也并不知道自己所提问的答案，也就不具备检查模型输出在「事实准确性」（Factuality）上的能力。一般来说，关于「模型幻觉」的自动化评估研究可以分为两类：1、给定上下文（用户输入文档）的情况下，检查模型输出是否完全基于输入的内容，比如文本摘要任务；2、用户直接提出一些与「外部来源」（新闻）或「常识知识」相关的问题。

1/13/2025 12:12:19 PM 新智元

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。

1/2/2025 9:30:00 AM 新智元

Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3，每秒处理 60 个 token，比 V2 快 3 倍！ MoE架构,6710 亿参数，激活 370 亿参数，训练基于 14.8 万亿高质量 token，完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法，将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式，显著提高了 DeepSeek-V3 的推理性能，同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化，有效克服了跨节点 MoE 训练中的通信瓶颈，使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上，DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测（MTP）目标，不仅提升模型性能，还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时，就完成了对 14.8 万亿 token 的预训练。

12/27/2024 9:50:00 AM AI寒武纪

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

Scaling Law要撞墙了？ Anthropic联创Jack Clark反驳了这一说法：绝非如此！在他看来，目前的AI发展还远远没到极限，「所有告诉你AI进展正在放缓，或者Scaling Law正在撞墙的人，都是错误的。

12/26/2024 3:00:09 PM 新智元

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

还没等到官宣，Deepseek-v3竟意外曝光了？据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。

12/26/2024 2:42:23 PM 量子位

时序预测再出新范式！华东师大提出DUET：「双向聚类」新设计，性能刷新SOTA！| KDD 2025

多变量时间序列预测（MTSF）在金融投资、能源管理、天气预测和交通优化等领域具有重要应用。然而，现实中的时间序列通常面临两大挑战：1. 时间模式的异质性，即由于外部因素的影响，真实时间序列往往表现出非平稳性（Temporal Distribution Shift, TDS），导致其分布和模式发生显著变化；2.

12/23/2024 3:30:00 PM 新智元

OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下

国际奥数题手到擒来，OpenAI o1是靠死记硬背还是真的实力超群？近日，来自港大的研究人员对o1进行了严格的AB测试：论文地址：？考两张卷子：一张是有可能提前背题的，另一张是不太可能提前背题的，两张卷子难度一致。

12/23/2024 8:40:00 AM 新智元

Kimi版o1实装上线，这里是我们的一手测试↑

Kimi新模型来袭，且发布即上线可用！就在数学模型k0-math刚发布后没几天，视觉思考模型k1就来了，多项思考推理测试超越Open AI o1。官方表示，基于强化学习，k1原生支持端到端图像理解和思维链技术。

12/17/2024 8:40:00 AM 量子位

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能，GPT-4o在ASR（音频转文字）任务上已经达到了97%的正确率，更是凸显了强大的音频理解能力。然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！下面是一个例子：结果让人难以置信：这些顶尖的AI模型都未能准确判断出音量的差异！

12/11/2024 1:30:00 PM 新智元

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控：GUI智能体的黎明

Claude操控电脑，究竟可以做到什么程度？新加坡国立大学团队在20多个场景下做了全面测试，其中最引人瞩目的是：AI可以自动玩手游清日常任务了！研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成今天的模拟宇宙”，然后，Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数：甚至还可以启动自动战斗、等待战斗结束后退出，这一套组合操作简直行云流水……而且注意哦，这不仅是传统游戏外挂那样的机械操作，Claude还能智能理解游戏规则和目标，根据界面上不同的任务进行调整。

11/25/2024 9:35:00 AM 量子位

o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍

o1不是通向大模型推理的唯一路径！ MIT的新研究发现，在测试时对大模型进行训练，可以让推理水平大幅提升。在挑战超难的ARC任务时，准确率最高可提升至原来的5.83倍。

11/12/2024 12:53:46 PM

OpenAI CEO 阿尔特曼预测 AGI 可在 5 年内实现，但短期社会影响不大

OpenAI CEO 萨姆・阿尔特曼（Sam Altman）一直对通用人工智能（AGI）充满热情，并表示公司正在积极追求这一雄心勃勃的目标。在最近的一次 Reddit AMA 中，阿尔特曼声称，使用现有的硬件就有可能实现 AGI。虽然他没有明确说明具体需要什么，但此前他曾表示，实现他的 AI 愿景需要 7 万亿美元和多年的时间来建造 36 个半导体工厂和更多的数据中心。

11/5/2024 5:47:58 PM 远洋

机器狗“登上”泰山：可负重运输货物、清理垃圾

AI在线从《泰山晚报》获悉，泰山文旅集团物业公司近期正在测试机器狗，并期望通过此次测试找到一条解决山岳型景区垃圾清运问题的好办法，解决人力运输的限制。目前，该机器狗正在测试阶段，可用来搬运货物、清运垃圾，已在泰山景区的台阶和山地路况进行了测试，有望提高当地的货物、垃圾运输效率。工作人员表示，这是该机器狗第一次来爬泰山、参与测试，只爬了山路的五分之一。

10/21/2024 3:04:09 PM 清源

「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假

「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的 Sonnet 3.5？发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎，已经光速「滑跪」，po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？9 月 5 日，Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——用 Meta 的开源 Llama 3.1-70B，团队微调出了 R

10/7/2024 4:06:50 PM 清源

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉