数据

史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1

史上最难的大模型测试集来了！包括o1在内，没有任何一个模型得分超过10%。题目来自500多家机构的1000多名学者，最终入围的题目有3000多道，全部都是研究生及以上难度。

1/24/2025 3:03:27 PM 量子位

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。论文：《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接：模型训练中的关键问题混合专家模型（MoEs）通过路由机制动态并稀疏地激活模型参数，使得能高效地增大模型参数规模。基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题：少数被频繁选择的专家会被优化得更多，进一步使得这些专家被更频繁地选择，最终导致只选择少数专家，造成剩余专家的冗余。

1/24/2025 2:19:21 PM 机器之心

中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

今天，Meta员工在匿名社区TeamBlind上的一个帖子，在业内被传疯了。 DeepSeek，真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型，而且与o1不同， R1还是开源模型「Open Source Model」，比OpenAI还Open!更有人曝料，DeepSeek还只是个「副项目」，主业根本不是搞大模型！

1/24/2025 1:20:00 PM 新智元

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

检索增强生成（RAG）虽好，但一直面临着资源消耗大、部署复杂等技术壁垒。近日，香港大学黄超教授团队提出MiniRAG，成功将RAG技术的应用门槛降至1.5B参数规模，实现了算力需求的大幅降低。这一突破性成果不仅为边缘计算设备注入新活力，更开启了基于小模型轻量级RAG的探索。

1/23/2025 5:00:00 PM 量子位

20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式

仅使用20K合成数据，就能让Qwen模型能力飙升——模型主观对话能力显著提升，还能实现模型自我迭代。最近，来自上海AI Lab的研究团队针对合成数据技术展开研究，提出了SFT数据合成引擎Condor，通过世界知识树（World Knowledge Tree）和自我反思（Self-Reflection）机制，探索合成海量高质量SFT数据的方案。结果，他们还意外发现，在增大合成数据量的情况下，模型性能持续提升。

1/23/2025 9:15:00 AM 量子位

Anthropic CEO惊人预警：27年AI超越人类！Claude今年更新全剧透

失踪人口终于回归了！在互联网消失一段时间后，Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访，连曝AI大瓜。他坚定地认为，「2027年之前，AI完全可以超越人类智能！

1/23/2025 9:00:00 AM 新智元

仅用25%数据实现性能超越！MapGS：解决特定传感器配置的在线建图模型训练问题

本文经3D视觉之心公众号授权转载，转载请联系出处。避免传感器配置差异近年来，多模态传感器融合的新进展推动了自动驾驶应用中感知方法的发展。这些进展涵盖了 3D 目标检测、在线地图生成与推理、占用预测，以及端到端框架的形式。

1/22/2025 10:40:00 AM 3D视觉之心

看破不可见数据集，自我监督学习成为细胞组学新的复杂系统处理利器

编辑丨&自我监督学习 SSL 是一个概念，即数据及其固有的成对关系足以学习有意义的数据表示。监督学习依赖于成对的观察值和标签，而 SSL 仅依赖于输入和样本间关系。 SSL 已成为一种强大的方法，用于从庞大、未标记的数据集中提取有意义的表示，从而改变计算机视觉和自然语言处理。

1/21/2025 7:11:00 PM ScienceAI

人大、东北大学联合开发「图机器学习库」Jittor Geometric！性能超越PYG、DGL

近日，中国人民大学与东北大学联合开发了图机器学习库Jittor Geometric，其1.0版本近日已正式发布。 Jittor Geometric以国产深度学习框架Jittor为基础技术架构，聚焦图数据，在图存储、图计算、图学习等方面作了细致优化，整合、加速了现有多类图神经网络模型，模型运行时间在多种图学习任务上较Pytorch Geometric（PyG）、Deep Graph Library（DGL）等同类型框架提升10%~50%。同时，Jittor Geometric简洁、易用、跨平台通用性强、用户学习成本低，目前已用于研究生课程教学。

1/21/2025 9:15:00 AM 新智元

追平满血版o1的国产多模态模型终于来了！训练细节全部公开

春节前最后一周，能媲美 Open AI 满血版 o1（Full Version，而非 preview）的模型终于出现了！刚刚，月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1，而且是 OpenAI 之外首个多模态 o1。

1/21/2025 8:00:00 AM 机器之心

多活十年！OpenAI为研究长寿推出GPT-4b，联手清华大牛丁胜搞“细胞重编程”，奥特曼本人投资

OpenAI要研究人类长寿问题了？？推出新模型GPT-4b micro。

1/20/2025 9:38:00 AM 量子位

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起，如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段，传统注意力机制中的键值缓存（KV Cache）会随着批处理大小和序列长度线性增长，俨然成为制约大语言模型规模化应用和推理时扩展的「内存杀手」。虽然业界已有 MQA、GQA、MLA 等多种注意力机制变体试图解决这一问题，但这些方案要么难以在严格的显存限制下保持理想性能，要么在模型结构上引入额外复杂度，带来巨大的工程挑战和生态兼容性问题。

1/17/2025 1:20:00 PM 机器之心

2024诺贝尔化学奖得主：「模型幻觉」给我无限创造力

万万没想到，一直备受批评的AI「幻觉」问题，竟然在科学领域具有极大的应用价值？就在最近，计算机科学家Amy McGovern表示：「公众认为这完全是坏事。但实际上，它为科学家提供了新的灵感，让他们得以探索一些原本可能不会想到的思路。

1/16/2025 3:00:00 PM 新智元

Keras之父创业押注「程序合成」，副业竟能解锁终极AGI！o3预示新拐点

AGI还有另一条新路：深度学习引导的程序合成！刚刚， Keras之父François Chollet宣布，与Mike Knoop共同创立全新AI实验室Ndea，直奔AGI。他们将另辟蹊径，聚焦于深度学习引导的程序合成，以构建具有真正的发明、适应和创新能力的AI。

1/16/2025 2:35:34 PM 新智元

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

本文经AIGC Studio公众号授权转载，转载请联系出处。理想提出3DRealCar，这是第一个大规模 3D 实车数据集，包含 2500 辆在真实场景中拍摄的汽车。 3DRealCar的目标是可以成为促进汽车相关任务的宝贵资源。

1/16/2025 10:35:00 AM AIGC Studio

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

在自然界，「适应」是一种非常普遍的现象。例如，章鱼能够迅速改变自身的肤色和纹理，以融入周围环境，从而躲避天敌和捕捉猎物；人脑在受伤后能够重新连接自身神经回路，使个体能够恢复失去的功能并适应新的思维方式或行动方式。生物体展现出的适应能力使得生命能够在不断变化的环境中蓬勃发展。

1/15/2025 3:11:39 PM 机器之心

医疗复杂推理开源大模型——华佗GPT-o1

在医学领域涉及大量复杂的推理过程，从症状分析到疾病诊断，每一步都需要综合考虑众多因素。例如，在诊断一种罕见疾病时，医生不仅要熟悉各种疾病的症状表现，还要了解患者的病史、家族遗传史、生活环境等多方面信息，通过层层推理才能做出准确的判断。为了辅助医生实现更高效的推理，香港中文大学（深圳）和深圳市大数据研究院联合开源了专用于医疗领域的复杂大模型——华佗GPT-o1。

1/15/2025 10:28:21 AM AIGC开放社区

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

想挑战 Transformer 的新架构有很多，来自谷歌的“正统”继承者 Titan 架构更受关注。英伟达把测试时间计算（Test-time Computing）称为大模型的第三个 Scaling Law。 OpenAI 把它用在推理（Reasoning），谷歌这次把它用在了记忆（Memory）。

1/14/2025 2:06:11 PM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉