理论
o3 vs o4 mini vs Gemini 2.5 pro:终极推理之战
译者 | 李睿审校 | 重楼随着技术的发展和进步,人工智能模型越来越智能,但究竟哪一种人工智能模型能在压力下展现出真正的推理能力? 本文对o3、o4-mini和Gemini 2.5 Pro这三种人工智能模型进行了一系列测试:物理谜题、数学问题、编码任务和现实世界的智商测试。 而应对这些挑战并没有任何捷径,而只有对它们思维能力的考验。
CodeBuddy的七种武器
中学时代非常喜欢看武侠小说,“飞雪连天射白鹿,笑书神侠倚碧鸳”自然不在话下,还看过梁羽生的《白发魔女传》与《七剑下天山》等书,当然还有古龙的《多情剑客无情剑》《绝代双骄》等,以及颇具特色的《七种武器》。 近来使用CodeBuddy,于是借用“七种武器”的噱头,聊一下CodeBuddy的七个功能特性,过一把武侠瘾。 1.长生剑:Craft智能体在编程江湖的传说里,Craft智能体就像一柄藏在键盘中的"长生剑"——这柄剑没有锋刃却通晓编程,剑鸣轻响间便能将言语化作代码星河。
CIO如何将AI炒作转化为切实的业务成果
在企业中,AI的优先级并不总是被完全理解,技术投入与投资既可以相辅相成,也可能相互掣肘。 在Foundry的《2025年AI优先级研究》中,企业透露他们正在为AI项目分配比以往更多的资金,近一半的企业现在都在为AI项目预留预算,这一比例从2023年的36%有所上升,此外,他们还将近25%的IT支出用于AI计划。 虽然有些企业比其他企业采取更为审慎的态度,但南非科技领袖们的共识是,AI投资必须带来切实的成果,且AI预算必须在整个企业中战略性地分配。
推理模型越来越强,大模型微调还有必要吗?
最近笔者在将大模型服务应用于实际业务系统时,首先一般习惯性用一些闭源api服务,花上几块钱快速测试下流程,然后在去分析下大模型效果。 如果通过几次调整Prompt或者超参数还是出现的bad cases比较多(比如输出结果的结构化有问题,输出结果不理想,在某些专业领域不同模型结果表现不一并且效果比较差),这个时候需要考虑下通过微调的方式来训练大模型。 现在的大模型推理能力越来越厉害,人们开始怀疑:我们还需要花时间和资源去微调大模型吗?
AI训练的反直觉发现:添加"有毒"数据反而能造就更好的语言模型?
"当坏数据能够创造出好模型,AI训练领域又一个传统观念被颠覆"你有没有听说过这样一个说法:垃圾进,垃圾出? 在AI大语言模型的训练中,这一直是个不言自明的准则。 工程师们花费大量时间和资源过滤训练数据,移除那些含有有毒、有害或不适当内容的文本,以防止模型学习和生成这些内容。
国产大模型「五强争霸」,决战AGI!
DeepSeek的横空出世,已经彻底改变了全球的AI局势。 从此,不仅中美大模型竞争格局改变,国产大模型的产业版图,也被一举打破! 纵观中国基础大模型的市场,可以看到,如今的基础大模型版图已然改天换地,演变为全新的五强格局——字节、阿里、阶跃星辰、智谱,以及DeepSeek。
AI自我复制:技术突破下的风险挑战
从诞生之初到现在,人工智能已经取得了长足的进步。 早期的人工智能系统是人类创造的奇迹,但完全依赖于人类的持续指导,存在很大局限性。 几十年来,伴随技术的发展,人工智能从基础的机器学习演变为更为复杂的神经网络。
一文了解!MCP 技术生态全面解析:核心组件、工作流程、生命周期
在 AI 领域,模型上下文协议(MCP)的出现,就像是一场及时雨,完美地解决了 AI 模型与外部工具和资源交互的难题,让它们之间的协作变得轻松又自然,彻底打破了数据孤岛的困境,让不同系统之间的互操作性不再是梦想。 一、MCP 核心组件:架构精解MCP 架构 :MCP 主要有三个核心组件,分别是 MCP 主机、MCP 客户端和 MCP 服务器,它们三个相互配合,让 AI 应用和外部工具、数据源之间能够无缝通信。 MCP 主机 :就好比是一个大舞台,为执行 AI 任务提供了演出环境,并且在这个舞台上运行着 MCP 客户端,没有它,整个表演就没办法开始。
HippoRAG:基于海马体记忆索引理论的知识密集型任务新突破
在自然语言处理领域,大语言模型(LLMs)已经取得了令人瞩目的成就。 然而,当面对知识密集型任务时,例如科学文献综述、法律案件简报或医疗诊断,这些模型往往显得力不从心。 它们难以有效地整合新的或特定领域的知识,而现有的检索增强生成(RAG)方法也因无法满足复杂的跨段落或文档的知识整合需求而受到限制。
程序员学习下,使用Cursor+MCP 提高开发效率
AI正在深刻改变着软件开发的方式。 在传统的开发模式中,程序员需要记忆大量的语法规则、API文档和最佳实践,这不仅增加了学习成本,还限制了开发效率。 Cursor最引人注目的特色在于其内置的AI助手系统。
AI Agent如何悄然改变前端开发
AI Agent正悄然改变前端开发! 从代码助手到自主系统,能扫描UI仓库、优化布局、重构组件。 Copilot编写代码,ChatGPT生成React组件,未来属于嵌入开发环境的持久Agent,驱动UX策略、设计和性能工程。
18岁天才高中生独登顶刊,AI解锁150万新天体!斯坦福连夜发offer
在NASA的2000亿条数据中隐藏着150万个未知天体,而揭开它们神秘面纱的,竟是一位美国高中生! 他就是Matteo Paz,来自加州南帕萨迪纳高中的天才少年。 基于加州理工学院的研究,Matteo挖掘了美国国家航空航天局(NASA)某项任务「沉睡的数据」,并以独著身份在天文学顶级期刊发文。
OpenAI命悬一线,微软连夜割肉!跪求OpenAI千万别分手
OpenAI和微软,快要闹崩了! 面对着想要上市的OpenAI,不惜割肉续命,绝不能让自己的130亿投资打水漂。 英国金融时报刚刚曝出,OpenAI和微软,正在重新协商数十亿美元的合作条款。
痛斥!现在的MCP,就像尿裤子!创业CTO试用后怒气值飙升,开怼整个大模型圈怪象:开发文档用大模型写的!网友:召唤MCP适配器
作者 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)现在的MCP乃至大模型开发圈,就像尿了裤子! 一开始热乎乎的,然后就开始难受了! 近日,一篇有关MCP深度批判的博客文章《A Critical Look at MCP》在网络上走红。
陶哲轩油管首秀:33分钟,AI速证「人类需要写满一页纸」的证明
快来围观,陶哲轩当视频博主了。 第一个产出就很炸裂:人类需要写满一页纸的证明,结果借助AI 33分钟就搞定了? 整个过程看起来一气呵成,还是全程“盲证”不用过脑子那种。
八秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布
可控图片生成,如今已经不是什么新鲜事。 甚至也不需要复杂的提示词,用户通过简单的文本描述,就能快速生成符合个人需求的创意图像。 不过仍然有一些局限:比如说,虽然可以实现单一任务(如身份、主体、风格、背景等)的定制化设计,可是一旦条件增多,就会出现“鱼和熊掌不可兼得”的问题。
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?
CoT(Chain-of-thought)大家都很熟悉了,通过模仿「人类解题思路」,进而大幅提升语言模型的推理能力。 这几天,一个名为 CoRT(Chain-of-Recursive-Thoughts)的概念火了! 从名称上来看,它在 CoT 中加入了「递归思考」这一步骤。
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。 尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce )用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚至直接崩掉。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉