理论
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM——MiniMax-M1。
6/17/2025 3:24:48 PM
苹果揭示当今先进模型存在严重缺陷,给企业高管敲响警钟
一份具有开创性的苹果研究论文在AI社区引发了轩然大波,该论文揭示了当今最先进模型中存在的严重局限性,这些缺陷此前一直未被发现。 论文《思考的错觉》表明,像GPT-4、Deep Seek和Claude Sonnet这样的高级模型所应用的“思维链”推理,在任务变得过于复杂时,会出现“完全的准确性崩溃”。 最令人担忧的方面似乎是,一旦任务复杂到一定程度,再投入更多的处理能力、标记或数据也无济于事。
6/17/2025 3:18:33 PM
Bernard Marr
DeepSeek-R1编程问鼎,媲美Claude 4!2025 AI上半场战报来袭
编程新王,又有一位玩家成功晋级。 刚刚,LMArena公布了最新WebDev Arena排行榜,DeepSeek-R1(0528)冲进第一。 新版DeepSeek-R1编程能力,现与Gemini 2.5 Pro、Claude Opus 4并驾齐驱。
6/17/2025 3:16:15 PM
新智元
本命周!MiniMax M1有多猛?网友:仅用40k思考预算就干翻Gemini,实测:真·超DS!生产环境下更划算!但还不够美观
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)大模型的内卷远远没有结束了。 今天凌晨,MiniMax 扔出了一记重磅炸弹——MiniMax-M1。 先来看看,M1 有多猛?
6/17/2025 2:49:18 PM
云昭
从开放生态到技术破局,昇腾CANN筑实AI时代的创新基座
从“百模大战”到“头部 垂直”的市场格局,大模型技术的发展经历了技术竞赛、资源整合、生态成熟的深刻转变。 如今,企业已经不再一味地追求超高算力、超大参数模型的构建,而是将重点放到了应用场景的实践探索上。 在这样的背景之下,AI开放生态的建设变得尤为关键。
6/17/2025 12:40:36 PM
张诚
AgentRM 奖励建模:智能体泛化能力的“导航仪”与“加速器”
大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)基础智能体正逐渐成为解决复杂交互任务的关键力量。 然而,一个不容忽视的问题是:尽管它们在训练中见过的任务上表现出色,但面对未见过的新任务时,泛化能力却往往不尽人意。
6/17/2025 9:50:30 AM
肆零柒
首席信息安全官为何需要理解AI技术栈——网络安全视角
随着人工智能技术的普及,相关风险也在蔓延。 安全负责人正面临保护尚未完全理解的系统的挑战,这构成了重大隐患。 帕拉丁全球研究所最新报告《AI技术栈:技术与网络政策入门》系统剖析了AI系统的构建原理及主要安全风险分布。
6/17/2025 9:31:53 AM
憨憨鸭
本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题
昨晚,油管千万级大V The Diary Of A CEO放出了,与图灵奖、诺贝尔奖获得者,被誉为AI教父的Geoffrey Hinton最新深度专访。 二人以对话形式主要探讨了AI的发展、安全、应用;虽然AI存在一定的风险,但在帮助人类提升科研、工作、生活水平质量等方面是非常高效。 当然也会抢走一部分人的工作,从而创造一些全新的职位。
6/17/2025 9:26:09 AM
重磅:Cursor 网页版!前端再次被打压!
在当今数字化飞速发展的时代,AI 辅助编程工具逐渐成为开发者提高效率的得力助手。 从 GitHub Copilot 到 Cursor,这些工具以其强大的代码生成能力广受关注。 而今天,我要介绍的是一款被称为 “网页版 Cursor” 的革命性工具——DeepSite。
6/17/2025 9:24:50 AM
小4子
特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
最新消息:再过不到一个月,特朗普政府就要启动一个超级计划,把AI推广到整个联邦政府! 美国总务管理局(GSA,联邦政府的采购部门)和它的技术转型服务(TTS)小组正在搞一个叫ai.gov的网站,目标是通过AI加速政府创新。 这消息是从GitHub上一个代码仓库里挖出来的,可惜发邮件一问,这仓库链接就无法显示了。
6/17/2025 9:19:16 AM
鹅厂实习生血泪贴:Agent/RAG 黑科技,真相竟是这样!
作者 | 33号实验室/knnwang被Agent/RAG吊打? 你缺的不是智商,是这篇文章! 亲历鹅厂IEG/WXG项目实战,大三菜鸟用血泪debug记录, 撕开AI基石真面目 → 黑科技本质 = ______!
6/17/2025 9:15:07 AM
腾讯技术工程
亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
未来的编程世界,会是灵感与效率的完美平衡,还是流水线式的代码工厂? 最近,亚马逊的软件工程师们发现,他们的日常工作正在发生微妙却深刻的变化。 AI工具被广泛引入,从代码生成到调试优化,程序员被要求以更快的速度交付成果。
6/17/2025 9:11:59 AM
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。
6/17/2025 9:09:00 AM
Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
假如一个平日里宁静的图书馆,突然涌入一大群不速之客,他们不阅览、不沉思,只是一味地疯狂复印每一本书的每一页。 这喧嚣吵闹的场面,怎能不打扰那些正埋首书海、专心阅读的人们呢? 如今,学术网站正遭遇类似的「数字入侵」。
6/17/2025 9:08:00 AM
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
深夜,沉寂已久的Kimi突然发布了新模型——开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。 参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。 有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。
6/17/2025 9:07:24 AM
人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。 翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚无被强行视为存在时,存在也会消解为虚无。 万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。
6/17/2025 9:05:00 AM
刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
就在最近,谷歌未来的AI路线图曝光! 谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中,介绍了Gemini模型的未来。 在未来,Gemini的全模态是重点,模型正在逐步变成智能体,推理能力还会持续扩展。
6/17/2025 9:05:00 AM
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。 但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。 一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
6/17/2025 9:04:33 AM
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Sora
Agent
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
RAG
大型语言模型
预测
具身智能
深度学习
伟达
视觉
Transformer
神器推荐
AGI
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA