模型
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
视频理解的CoT推理能力,怎么评? 中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。 为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。
4/18/2025 9:13:00 AM
量子位
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底
当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。 想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。 同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。
4/18/2025 9:07:00 AM
新智元
UC伯克利:让推理模型少思考,准确率反而更高了!
让推理模型不要思考,得到的结果反而更准确? UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。 例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。
4/18/2025 8:42:52 AM
量子位
o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实
昨夜o3的发布,让人不尽感慨:打了这么久嘴炮的OpenAI,这回终于实实在在拿出了点真东西。 史上首次,模型能够用图像思考,视觉推理达到巅峰。 许多网友实测后,大感惊艳。
4/17/2025 2:09:52 PM
新智元
从思考到行动:大模型自主工具调用能力的深度实现
本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导,博士生韩槿一,硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。 但是,多数主流模型仍在基础问题上犯错,复杂四则运算计算失误,简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。
4/17/2025 10:43:00 AM
机器之心
齐心集团于斌平:在大模型时代,软件应用开发开发范式从“代码驱动”转向“模型能力优先”
作者 | 于斌平编辑 | 云昭在大模型时代,软件应用开发范式正在发生深刻变革。 传统的开发模式以代码为核心,注重如何用代码实现功能及用户的交互体验;而大模型时代的开发则以模型能力为核心,强调智能交互设计和业务场景创新。 本文将从新范式的关键特征、软件工程模式和开发理念的变革、建议与实践三个方面展开讨论,旨在为企业在大模型落地过程中提供全面的技术和方法指引。
4/17/2025 10:17:29 AM
云昭
OpenAI开源超火Agent,五小时破5000颗星,霸榜Github
在今天凌晨1点的产品发布中,OpenAI还开源了一个终端轻量级代码Agent智能体——Codex CLI。 从凌晨到现在只用了5小时左右,Codex CLI直接破5000星霸榜Github,估计今天能破1万颗星,将成为一款明星级Agent。 OpenAI联合创始人兼总裁Greg Brockman表示,Codex CLI只是第一款代码工具,未来还将继续开源Agent产品。
4/17/2025 9:58:32 AM
AIGC开放社区
谷歌提出Transformer架构中,表示崩塌、过度压缩的五个解决方法
Transformer架构的出现极大推动了生成式AI的发展,在此基础之上开发出了ChatGPT、Copilot、讯飞星火、文心一言、Midjourney等一大批知名产品。 但Transformer架构并非完美还存在不少问题,例如,在执行需要计数或复制输入序列元素的任务经常会出错。 而这些操作是推理的基本组件,对于解决日常任务至关重要。
4/17/2025 9:53:49 AM
AIGC开放社区
刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star
深夜,OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini。 该系列模型经过训练,会在响应之前进行更长时间的思考。 OpenAI 表示,这是他们迄今为止发布的最智能模型,也标志着 ChatGPT 能力的巨大飞跃。
4/17/2025 9:02:00 AM
机器之心
OpenAI深夜发布满血o3和o4mini: 两个没想到
OpenAI刚刚宣布推出其最新的o系列模型:o3和o4-mini,与以往模型不同,o3和o4-mini被设计为真正的AI系统,模型甚至能连续调用超过600次工具来完成一项艰巨任务,它们在理解和导航大型代码库(比如OpenAI自己的代码库)方面,超越了人类工程师,极大地提高了开发效率这次发布会我有两个没想到:一是没想到o系列模型变成了一个融合的模型,另外一个是引入图像推理“Thinking with Images”,下面第一时间给大家划个重点全面工具访问与推理能力o3和o4-mini最显著的特点是首次实现了对ChatGPT内所有工具的智能使用和组合能力。 它们可以搜索网络、分析上传的文件、处理视觉输入、生成图像,并且能够智能地判断何时以及如何使用这些工具来解决复杂问题。 这些模型经过专门训练,能够在大约一分钟内提供详细且经过深思熟虑的答案,以适当的输出格式解决多方面的问题o3,o4mini性能OpenAI o3是目前最强大的推理模型,在编程、数学、科学、视觉感知等领域推动了技术边界。
4/17/2025 8:59:59 AM
AI寒武纪
围绕多智能体黑箱非凸优化共识难题,华南理工大学团队发表系列研究
多智能体系统分布式共识优化的一系列研究来了! 在智能城市、智能电网、无人系统等前沿应用不断扩展的今天,多智能体系统(Multi-Agent Systems, MAS)作为新一代智能协同的技术基础,正迎来前所未有的发展机遇。 在这些系统中,多个具备计算与通信能力的智能体需要在没有中心协调、通信受限的条件下实现任务协作、资源共享与一致性决策。
4/17/2025 8:55:24 AM
量子位
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
语言模型的推理刚火完,视频AI也开始「卷」起来了。 这次出手的是港中文 清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1。 别看它只有7B参数,但它在李飞飞提出的VSI-Bench基准中,竟然超越了GPT-4o!
4/16/2025 3:28:31 PM
新智元
字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开
文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。 Seedream 3.0是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。 据Seedream 3.0技术报告,Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。
4/16/2025 2:54:00 PM
新闻助手
Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升
今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。 Anthropic称Research功能是与Claude合作的新方式。 它能从多个角度分析问题,自动搜索信息,几分钟之内给出答案。
4/16/2025 1:51:29 PM
新智元
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理
大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元
永别了,GPT-4!
猝不及防地,GPT-4就这样退出历史舞台了。 4月10日,OpenAI正式宣布,即将从ChatGPT中移除两年前推出的GPT-4。 从4月30日起,GPT-4将被当前的默认模型GPT-4o完全取代。
4/16/2025 9:35:03 AM
新智元
GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的
不过两月,GPT-4.5正式出局,前浪把后浪拍在了沙滩上。 GPT-4.1家族的出世,以更强编码性能,百万token上下文,更具性价比的价格,直接击穿了4.5。 nano版的GPT-4.1性能足以媲美GPT-4o mini,而且速度更快,价格更便宜。
4/16/2025 9:30:16 AM
新智元
英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
密集模型的推理能力也能和DeepSeek-R1掰手腕了? 华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务当中,和R1打得有来有回。 关键是模型参数量只有135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。
4/16/2025 8:50:00 AM
量子位
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉