AI在线 AI在线

理论

Grok 3冲击诺奖级突破,成证明「黎曼猜想」关键!AI与数学家打出终极组合拳

困扰人类一个多世纪的「黎曼猜想」,如今可能正站在被破解的边缘。 这周发布的Grok 3异军突起,不仅横扫各大排行榜,更将目光投向了这个「猜想界的皇冠」。 风投机构IBC Group创始人Mario Nawfal发文称,破解黎曼猜想的竞赛正在升温,而Grok 3可能正是关键所在!
2/24/2025 9:25:00 AM
新智元

月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用

算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用。 在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。
2/24/2025 9:15:00 AM
量子位

多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

OpenAI o1视觉能力还是最强,模型们普遍“过于自信”! 这个结果来自首个面向事实知识的中文视觉问答基准ChineseSimpleVQA。 该基准测试包含2200个高质量问题,覆盖了8个主要话题和56个子话题,这些问题涉及从人文到科学和工程等多个领域,由淘天集团未来生活实验室团队推出。
2/24/2025 9:12:00 AM
量子位

从RPA到AI Agent:五种agent模式全解析,搭配两个实践项目介绍(text2SQL、流水解析)

24年年末Anthropic公司发布那篇Building effective agents的Blog,无疑是 AI Agent的入门必读文章之一。 其中反复强调了,最成功的应用案例并非依赖复杂的框架或专业的库,而是采用了简单且可组合的模式,个人实践下来,深以为然。 复制本篇结合个人近期的相关项目或者比赛经验,为大家就其中的五种agent模式应用实践做下分享,正文特意避免了过多技术细节,专注于核心概念和实际案例,可放心使用。
2/24/2025 9:04:20 AM
韦东东

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

复刻DeepSeek的神话,还在继续。 之前,UC伯克利的博士只用30美元,就复刻了DeepSeek中的顿悟时刻,震惊圈内。 这一次,来自荷兰阿姆斯特丹的研究人员Raz,再次打破纪录,把复刻成本降到了史上最低——只要10美元,就能复现DeepSeek顿悟时刻!
2/24/2025 9:00:00 AM
新智元

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

OpenAI的Deep Research一经发布便引发了全网的热议。 作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。 在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。
2/24/2025 8:47:00 AM
新智元

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了,就是没有开源训练代码和数据。 现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。 国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero(ORZ),由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲自署名。
2/24/2025 8:40:00 AM
量子位

模型训练之数据集操作:矩阵变换

对神经网络技术有所了解的人应该都知道,要想训练一个高性能的神经网络模型,除了神经网络本身的设计之外,还一个非常重要的前提就是数据集的质量问题;因此,打造一个高质量的数据集就是一个必不可少的过程。 但具体怎么才能开发一个合格的数据集,这时就离不开对数据集的各种操作;而由于在神经网络中,数据的主要载体是多维数组,也就是矩阵;因此一般情况下,数据集的数据格式也会以矩阵的形式存在。 而学会对矩阵的操作就是一个必不可少的技能之一;下面我们就以MINST数据集为例,来简单介绍一下对数据集的操作过程。
2/24/2025 8:40:00 AM
AI探索时代

构建一个完全本地的语音激活的实用RAG系统

译者 | 布加迪审校 | 重楼本文将探讨如何构建一个RAG系统并使其完全由语音激活。 RAG(检索增强生成)是一种将外部知识用于额外上下文以馈入到大语言模型(LLM),从而提高模型准确性和相关性的技术。 这是一种比不断微调模型可靠得多的方法,可以改善生成式AI的结果。
2/24/2025 8:39:08 AM
布加迪

AI智能体结对编程秒杀人类,90分钟神作惊动OpenAI总裁!引全网140万围观

无需人类插手,AI智能体联手AI智能体竟完成了程序开发。 这简直太疯狂了! 最近,AI开发者Lamar将OpenAI Operator和Replit Agent配对后,让其构建应用程序。
2/24/2025 8:36:00 AM
新智元

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢? 为此,来自港中文MMLab的研究者们提出了MME-CoT。 这是一个全面且专门用于评估LMMs中视觉推理能力的Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。
2/24/2025 8:30:00 AM
量子位

DeepSeek热度正盛,被神话还是确有实力?

2025年年初,中国初创公司DeepSeek以一种近乎现象级的速度崛起,引发了全球科技界的热议。 其模型在苹果应用商店的下载量超越ChatGPT、训练成本仅为竞争对手的零头、技术能力被冠以“颠覆性”标签……这些标签让DeepSeek迅速成为舆论焦点。 然而,在铺天盖地的赞誉与争议中,一个核心问题亟待回答:DeepSeek的“神话”究竟是资本市场的造势,还是AI实力的真实体现?
2/24/2025 8:28:30 AM
Yu

如何用 11 款 AI 工具让工作效率提升 300 倍

爱因斯坦有句名言:「如果还在重复做同样的事情,却期待会有不同结果,那么就等于疯狂。 」如果想在接下来的日子里提高效率,不妨往下看看。 Promptmetheus —— 不再花时间“修饰”Promptimage.png如果你玩过 ChatGPT,就知道写出好的 Prompt 有时像玄学。
2/24/2025 8:24:39 AM
dev

AI写代码新姿势:一个截图,代替千行代码

现在写代码,最fashion的“姿势”应该是什么? 答案或许就是:截图。 没错,就像这样,先随便找个网页,截取想要的那部分界面,然后“喂”给AI,并附上一句Prompt:参考这个页面,生成一个类似的HTML页面。
2/24/2025 8:20:00 AM
量子位

解决 NLP 任务的 Transformer 为什么可以应用于计算机视觉?

几乎所有的自然语言处理任务,从语言建模和masked词预测到翻译和问答,在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer在计算机视觉任务中也表现出色,只用了2-3年的时间。 在这篇文章中,我们探索了两种基础架构,它们使Transformer能够闯入计算机视觉的世界。
2/24/2025 8:20:00 AM
二旺

谷歌Fellow级大佬出走!17年老将吴永辉加盟字节,亲自操刀大模型研发

谷歌17年老将,正式加入字节跳动。 据报道,吴永辉博士已确认离职谷歌,加盟字节负责AI基础研究领域的工作。 他将在字节担任大模型团队Seed基础研究负责人,专注于大模型基础研究搜索、AI for Science科研工作,直接向CEO梁汝波汇报。
2/24/2025 8:15:00 AM
新智元

忘掉 DeepSeek:Qwen 2.5 VL 与 Qwen Max 来了

Qwen 系列又推出了两款令人瞩目的新模型:Qwen 2.5 VL 和 Qwen 2.5 Max。 如果还停留在“DeepSeek 是最强”那一档,就可能要重新考虑一下,因为这两款模型的实力相当惊艳。 什么是 Qwen 2.5 VL?
2/24/2025 8:10:00 AM
de

使用共享神经网络扩展机器学习模型

译者 | 崔皓审校 | 重楼随着机器学习模型的复杂性和规模不断增长,任何企业或者组织在部署、扩展模型上都面临着巨大的挑战。 迫在眉睫的挑战是如何在内存限制与模型规模之间取得平衡,并保持高性能和成本效益。 本文探讨了一种创新的架构解决方案,通过将共享神经编码器与专门的预测头结合的混合方法来应对这些挑战。
2/24/2025 8:00:00 AM
崔皓