推理
CoT推理大溃败?哈佛华人揭秘:LLM一思考,立刻就「失智」
DeepSeek-R1火了,推理模型火了,思维链(Chain-of-Thought,CoT)火了! 模型很聪明,问题是:它还听你的话吗? 思维链很好,但代价呢?
5/21/2025 9:02:20 AM
蚂蚁武威:下一代「推理」模型范式大猜想
R1 之后,长思维链成为研究下一代基础模型中 “推理”(Reasoning)能力的热门方向。 一方面,R1 证明了大模型深度思考的可行性;与此同时,尽管 R1 展现出了强大的性能,大模型推理的序幕实则才刚刚拉开。 此外,R1 在海外掀桌也给国内人工智能的研究带来一个显著影响,即:越来越多的研究者敢于站在更高视角思考,提出前瞻引领的技术思想。
5/21/2025 12:10:00 AM
陈彩娴
谷歌 DeepMind 通过强化学习微调提升 AI 决策能力
近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。 他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。 这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。
5/20/2025 6:00:45 PM
AI在线
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。 本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL,比传统 CoT 更高效地解决更复杂的推理任务。 理论上,我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题,而这对于传统的 CoT 是不可能的!
5/16/2025 8:44:01 AM
前苹果工程师公司ElastixAI筹集 1600 万美元,专注优化大语言模型的推理技术
最近,在美国西雅图成立了一家新创公司 ElastixAI,该公司由几位资深工程师创立,旨在解决大型语言模型部署过程中的成本和复杂性问题。 ElastixAI 专注于开发一种 AI 推理平台,旨在优化大型语言模型的运行方式。 该公司在刚成立几个月内,成功融资1600万美元,由位于贝尔维尤的风险投资公司 FUSE 领投。
5/15/2025 12:00:54 PM
AI在线
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
在60个主流基准测试中拿下38项第一! 字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器 200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。 相关技术报告也第一时间公开了。
5/15/2025 8:30:00 AM
仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA
在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。 该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。
5/14/2025 3:00:52 PM
AI在线
字节跳动发布新一代多模态大模型,挑战谷歌 Gemini 2.5 Pro
在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。 该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。 与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。
5/14/2025 12:00:52 PM
AI在线
推理模型越来越强,大模型微调还有必要吗?
最近笔者在将大模型服务应用于实际业务系统时,首先一般习惯性用一些闭源api服务,花上几块钱快速测试下流程,然后在去分析下大模型效果。 如果通过几次调整Prompt或者超参数还是出现的bad cases比较多(比如输出结果的结构化有问题,输出结果不理想,在某些专业领域不同模型结果表现不一并且效果比较差),这个时候需要考虑下通过微调的方式来训练大模型。 现在的大模型推理能力越来越厉害,人们开始怀疑:我们还需要花时间和资源去微调大模型吗?
5/13/2025 5:11:00 AM
ChallengeHub
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?
CoT(Chain-of-thought)大家都很熟悉了,通过模仿「人类解题思路」,进而大幅提升语言模型的推理能力。 这几天,一个名为 CoRT(Chain-of-Recursive-Thoughts)的概念火了! 从名称上来看,它在 CoT 中加入了「递归思考」这一步骤。
5/12/2025 2:24:07 PM
UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。 这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。 随着人工智能技术的飞速发展,自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。
5/10/2025 11:00:51 AM
AI在线
英伟达开源新一代OCR代码推理 AI 模型,超越 OpenAIo3-Mini表现
英伟达在技术界引起广泛关注,正式发布了其最新的 Open Code Reasoning(OCR)模型套装。 这一模型的推出,不仅展示了英伟达在人工智能领域的创新能力,也为开发者提供了强有力的工具,助力他们在代码推理和生成任务中取得更好的成绩。 ** 模型参数与架构:多样化选择 **英伟达的 OCR 模型套装共包含三种不同参数规模,分别为32B、14B 和7B。
5/9/2025 4:00:51 PM
AI在线
英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1
近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线
月之暗面 Kimi 长思考模型 API 正式发布
月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。 这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。 kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。
5/6/2025 6:00:51 PM
AI在线
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。
5/6/2025 8:40:00 AM
量子位
微软发布 Phi-4 系列小语言 AI 推理模型,AIME 2025 跑分超满血版 Deepseek R1
微软昨日(4 月 30 日)发布 Phi-4-reasoning 系列推理模型,通过监督微调 Phi-4,并利用 o3-mini 生成的高质量“可教导”提示数据集训练,专为复杂推理任务设计。
5/1/2025 3:07:20 PM
故渊
数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃
在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。 这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
5/1/2025 10:00:51 AM
AI在线
中国开源大模型新成员:小米推理大模型首秀!
编辑 | 云昭进入2025以来,中国大模型的开源力量一骑绝尘,甚至盖过了Llama的势头。 今天,中国开源大模型,迎来新成员! 4月30日,赶在五一前,一条“为Reasoning而生”的Xiaomi Mimo开源模型的发布消息不胫而走,发布渠道是小米6天前新注册的公众号Xiaomi Mimo。
4/30/2025 4:48:07 PM
云昭
资讯热榜
DeepSeek R1-0528震撼发布:免费128K上下文,性能直逼OpenAI o3!
3分钟生成UI源文件!实测谷歌最新UI设计神器Google Stitch
Anthropic拒绝为Windsurf提供Claude Sonnet 4与Opus 4支持,商战大戏开演!
华为推出昇腾超节点技术,成功实现业界最大规模 384 卡高速总线互联
早报速读!2025年5月最新AI视频产品评测&优秀案例
《Nature》研究显示:ChatGPT 可使中小学生学习效果暴涨 86.7%
从设计到开发一步到位!Figma 5大新功能深度解析!
被困在 4GB 内存里的 Llama 3.2:AI 在树莓派中上演“死亡循环”
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
腾讯
Anthropic
研究
神经网络
3D
计算
Sora
机器学习
生成
AI设计
AI for Science
苹果
GPU
AI视频
训练
华为
搜索
Claude
场景
百度
人形机器人
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
Agent
算力
应用
大型语言模型
工具
安全
干货合集
视频生成