AI在线 AI在线

理论

同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了

同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM——MiniMax-M1。
6/17/2025 3:24:48 PM

苹果揭示当今先进模型存在严重缺陷,给企业高管敲响警钟

一份具有开创性的苹果研究论文在AI社区引发了轩然大波,该论文揭示了当今最先进模型中存在的严重局限性,这些缺陷此前一直未被发现。 论文《思考的错觉》表明,像GPT-4、Deep Seek和Claude Sonnet这样的高级模型所应用的“思维链”推理,在任务变得过于复杂时,会出现“完全的准确性崩溃”。 最令人担忧的方面似乎是,一旦任务复杂到一定程度,再投入更多的处理能力、标记或数据也无济于事。
6/17/2025 3:18:33 PM
Bernard Marr

DeepSeek-R1编程问鼎,媲美Claude 4!2025 AI上半场战报来袭

编程新王,又有一位玩家成功晋级。 刚刚,LMArena公布了最新WebDev Arena排行榜,DeepSeek-R1(0528)冲进第一。 新版DeepSeek-R1编程能力,现与Gemini 2.5 Pro、Claude Opus 4并驾齐驱。
6/17/2025 3:16:15 PM
新智元

本命周!MiniMax M1有多猛?网友:仅用40k思考预算就干翻Gemini,实测:真·超DS!生产环境下更划算!但还不够美观

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)大模型的内卷远远没有结束了。 今天凌晨,MiniMax 扔出了一记重磅炸弹——MiniMax-M1。 先来看看,M1 有多猛?
6/17/2025 2:49:18 PM
云昭

从开放生态到技术破局,昇腾CANN筑实AI时代的创新基座

从“百模大战”到“头部 垂直”的市场格局,大模型技术的发展经历了技术竞赛、资源整合、生态成熟的深刻转变。 如今,企业已经不再一味地追求超高算力、超大参数模型的构建,而是将重点放到了应用场景的实践探索上。 在这样的背景之下,AI开放生态的建设变得尤为关键。
6/17/2025 12:40:36 PM
张诚

AgentRM 奖励建模:智能体泛化能力的“导航仪”与“加速器”

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)基础智能体正逐渐成为解决复杂交互任务的关键力量。 然而,一个不容忽视的问题是:尽管它们在训练中见过的任务上表现出色,但面对未见过的新任务时,泛化能力却往往不尽人意。
6/17/2025 9:50:30 AM
肆零柒

首席信息安全官为何需要理解AI技术栈——网络安全视角

随着人工智能技术的普及,相关风险也在蔓延。 安全负责人正面临保护尚未完全理解的系统的挑战,这构成了重大隐患。 帕拉丁全球研究所最新报告《AI技术栈:技术与网络政策入门》系统剖析了AI系统的构建原理及主要安全风险分布。
6/17/2025 9:31:53 AM
憨憨鸭

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

昨晚,油管千万级大V The Diary Of A CEO放出了,与图灵奖、诺贝尔奖获得者,被誉为AI教父的Geoffrey Hinton最新深度专访。 二人以对话形式主要探讨了AI的发展、安全、应用;虽然AI存在一定的风险,但在帮助人类提升科研、工作、生活水平质量等方面是非常高效。 当然也会抢走一部分人的工作,从而创造一些全新的职位。
6/17/2025 9:26:09 AM

重磅:Cursor 网页版!前端再次被打压!

在当今数字化飞速发展的时代,AI 辅助编程工具逐渐成为开发者提高效率的得力助手。 从 GitHub Copilot 到 Cursor,这些工具以其强大的代码生成能力广受关注。 而今天,我要介绍的是一款被称为 “网页版 Cursor” 的革命性工具——DeepSite。
6/17/2025 9:24:50 AM
小4子

特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线

最新消息:再过不到一个月,特朗普政府就要启动一个超级计划,把AI推广到整个联邦政府! 美国总务管理局(GSA,联邦政府的采购部门)和它的技术转型服务(TTS)小组正在搞一个叫ai.gov的网站,目标是通过AI加速政府创新。 这消息是从GitHub上一个代码仓库里挖出来的,可惜发邮件一问,这仓库链接就无法显示了。
6/17/2025 9:19:16 AM

鹅厂实习生血泪贴:Agent/RAG 黑科技,真相竟是这样!

作者 | 33号实验室/knnwang被Agent/RAG吊打? 你缺的不是智商,是这篇文章! 亲历鹅厂IEG/WXG项目实战,大三菜鸟用血泪debug记录, 撕开AI基石真面目 → 黑科技本质 = ______!
6/17/2025 9:15:07 AM
腾讯技术工程

亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」

未来的编程世界,会是灵感与效率的完美平衡,还是流水线式的代码工厂? 最近,亚马逊的软件工程师们发现,他们的日常工作正在发生微妙却深刻的变化。 AI工具被广泛引入,从代码生成到调试优化,程序员被要求以更快的速度交付成果。
6/17/2025 9:11:59 AM

刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4

在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。
6/17/2025 9:09:00 AM

Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘

假如一个平日里宁静的图书馆,突然涌入一大群不速之客,他们不阅览、不沉思,只是一味地疯狂复印每一本书的每一页。 这喧嚣吵闹的场面,怎能不打扰那些正埋首书海、专心阅读的人们呢? 如今,学术网站正遭遇类似的「数字入侵」。
6/17/2025 9:08:00 AM

Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源

深夜,沉寂已久的Kimi突然发布了新模型——开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。 参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。 有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。
6/17/2025 9:07:24 AM

人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了

200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。 翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚无被强行视为存在时,存在也会消解为虚无。 万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。
6/17/2025 9:05:00 AM

刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!

就在最近,谷歌未来的AI路线图曝光! 谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中,介绍了Gemini模型的未来。 在未来,Gemini的全模态是重点,模型正在逐步变成智能体,推理能力还会持续扩展。
6/17/2025 9:05:00 AM

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。 但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。 一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
6/17/2025 9:04:33 AM