推理
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/10/2025 1:15:00 PM
机器之心
OpenAI 升级 o3-mini 模型思维链,提高 AI 推理透明度
OpenAI 公司今天(2 月 7 日)在 X 平台发布推文,宣布面向免费和付费用户更新 o3-mini 的思维链,并为付费用户更新 o3-mini-high 的思维链,更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。
2/7/2025 7:20:02 AM
故渊
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
近日,中国电信人工智能研究院(TeleAI)“复杂推理大模型” TeleAI-t1-preview 正式发布,即将上线天翼 AI 开放平台。 TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。 早在 1500 多年前,数学家祖冲之就曾在《辩戴法兴难新历》中指出,复杂事物的运行规律并非超自然现象,而是可以通过实际观测、数据推理而严谨求得。
1/26/2025 9:41:00 AM
新闻助手
推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了
瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位
Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
代码
LLM
算法
芯片
Stable Diffusion
腾讯
苹果
AI for Science
Claude
Agent
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
RAG
大语言模型
Sora
华为
GPU
计算
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
架构
预测
视觉
DeepMind
伟达
Transformer
编程
AI模型
神器推荐
亚马逊
MCP