AI在线 AI在线

资讯列表

OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

尽管 OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)坚称,到今年年底,人工智能模型将能够超越“低级别”软件工程师,但该公司研究人员的最新研究却表明,即使是目前最先进的 AI 模型,仍无法与人类程序员相媲美。
2/24/2025 9:25:21 AM
远洋

Grok 3冲击诺奖级突破,成证明「黎曼猜想」关键!AI与数学家打出终极组合拳

困扰人类一个多世纪的「黎曼猜想」,如今可能正站在被破解的边缘。 这周发布的Grok 3异军突起,不仅横扫各大排行榜,更将目光投向了这个「猜想界的皇冠」。 风投机构IBC Group创始人Mario Nawfal发文称,破解黎曼猜想的竞赛正在升温,而Grok 3可能正是关键所在!
2/24/2025 9:25:00 AM
新智元

月之暗面联手UCLA推新模型Mixture-of-Expert,提升语言模型训练效率

在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。 然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。 研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。
2/24/2025 9:25:00 AM
AI在线

​五角大楼高官透露:将投资于 “自主杀手机器人”

在一次令人震惊的声明中,一位高级国防官员向《Defense One》透露,五角大楼对自主杀手机器人的兴趣正在加速增长。 该官员在匿名的情况下表示,五角大楼正计划减少对人工智能研究的资金投入,转而投资于实际的 AI 武器系统。 他指出:“我们不会再投资于‘人工智能’,因为我不知道那意味着什么。
2/24/2025 9:17:00 AM
AI在线

月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用

算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用。 在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。
2/24/2025 9:15:00 AM
量子位

小米将推出首款AI PC产品

小米集团合伙人兼总裁卢伟冰在近日一场小米15Ultra爆料直播中透露,小米将推出首款 AI PC 产品引发了科技界的广泛关注。 据称,新款 AI PC 的一大亮点在于其搭载的99Wh 超大电池,这一设计不仅满足了民航运输的安全标准,成为市场上为数不多的可登机产品,还将大幅提升用户在移动办公时的续航能力。 卢伟冰表示,随着移动办公的普及,用户对电池续航的需求越来越高。
2/24/2025 9:13:00 AM
AI在线

多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

OpenAI o1视觉能力还是最强,模型们普遍“过于自信”! 这个结果来自首个面向事实知识的中文视觉问答基准ChineseSimpleVQA。 该基准测试包含2200个高质量问题,覆盖了8个主要话题和56个子话题,这些问题涉及从人文到科学和工程等多个领域,由淘天集团未来生活实验室团队推出。
2/24/2025 9:12:00 AM
量子位

​OpenAI 最新研究揭示:最先进的 AI 仍难以解决编码问题

近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。
2/24/2025 9:09:00 AM
AI在线

从RPA到AI Agent:五种agent模式全解析,搭配两个实践项目介绍(text2SQL、流水解析)

24年年末Anthropic公司发布那篇Building effective agents的Blog,无疑是 AI Agent的入门必读文章之一。 其中反复强调了,最成功的应用案例并非依赖复杂的框架或专业的库,而是采用了简单且可组合的模式,个人实践下来,深以为然。 复制本篇结合个人近期的相关项目或者比赛经验,为大家就其中的五种agent模式应用实践做下分享,正文特意避免了过多技术细节,专注于核心概念和实际案例,可放心使用。
2/24/2025 9:04:20 AM
韦东东

​谷歌AI视频生成模型Veo 2使用成本曝光:一分钟视频要30美元

谷歌近日悄然公布了其视频生成 AI 模型 Veo2的定价信息,Veo2最早是在去年12月被披露的,这一新模型吸引了不少关注。 根据谷歌的定价页面,使用 Veo2的费用为每秒50美分,这样算下来,每分钟的视频费用为30美元,每小时的视频费用则高达1800美元。 谷歌 DeepMind 的研究员乔恩・巴伦(Jon Barron)对这一定价进行了有趣的比较,他提到了备受瞩目的漫威电影《复仇者联盟:终局之战》的制作预算,该预算高达3.56亿美元,折合每秒约32,000美元。
2/24/2025 9:04:00 AM
AI在线

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

复刻DeepSeek的神话,还在继续。 之前,UC伯克利的博士只用30美元,就复刻了DeepSeek中的顿悟时刻,震惊圈内。 这一次,来自荷兰阿姆斯特丹的研究人员Raz,再次打破纪录,把复刻成本降到了史上最低——只要10美元,就能复现DeepSeek顿悟时刻!
2/24/2025 9:00:00 AM
新智元

超 20 家央企接入 DeepSeek,涉及能源、通信、汽车等领域

据经济参考报报道,近来,国资央企“牵手”DeepSeek 已成为一股新风潮。据不完全统计,目前有超 20 家央企接入 DeepSeek,涉及能源、通信、汽车、金融、建筑等多个领域。
2/24/2025 8:56:11 AM
远洋

月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型

“我们的模型不仅突破了当前的Pareto前沿,还在训练所需的FLOP数大幅减少的情况下,达到了比以往模型更优的性能。”
2/24/2025 8:53:18 AM
清源

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

OpenAI的Deep Research一经发布便引发了全网的热议。 作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。 在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。
2/24/2025 8:47:00 AM
新智元

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了,就是没有开源训练代码和数据。 现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。 国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero(ORZ),由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲自署名。
2/24/2025 8:40:00 AM
量子位

模型训练之数据集操作:矩阵变换

对神经网络技术有所了解的人应该都知道,要想训练一个高性能的神经网络模型,除了神经网络本身的设计之外,还一个非常重要的前提就是数据集的质量问题;因此,打造一个高质量的数据集就是一个必不可少的过程。 但具体怎么才能开发一个合格的数据集,这时就离不开对数据集的各种操作;而由于在神经网络中,数据的主要载体是多维数组,也就是矩阵;因此一般情况下,数据集的数据格式也会以矩阵的形式存在。 而学会对矩阵的操作就是一个必不可少的技能之一;下面我们就以MINST数据集为例,来简单介绍一下对数据集的操作过程。
2/24/2025 8:40:00 AM
AI探索时代

构建一个完全本地的语音激活的实用RAG系统

译者 | 布加迪审校 | 重楼本文将探讨如何构建一个RAG系统并使其完全由语音激活。 RAG(检索增强生成)是一种将外部知识用于额外上下文以馈入到大语言模型(LLM),从而提高模型准确性和相关性的技术。 这是一种比不断微调模型可靠得多的方法,可以改善生成式AI的结果。
2/24/2025 8:39:08 AM
布加迪

AI智能体结对编程秒杀人类,90分钟神作惊动OpenAI总裁!引全网140万围观

无需人类插手,AI智能体联手AI智能体竟完成了程序开发。 这简直太疯狂了! 最近,AI开发者Lamar将OpenAI Operator和Replit Agent配对后,让其构建应用程序。
2/24/2025 8:36:00 AM
新智元