AI在线 AI在线

数据

长链推理表象下,大模型精细表征张冠李戴的本质

近些年,大模型的发展可谓是繁花似锦、烈火烹油。 从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。 然而,无论在学术界还是在工业界,目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性,而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。
3/13/2025 11:18:14 AM
张拳石、陈鹭

担心成为「AI界奥本海默」!DeepMind、Anthropic CEO同框,26年AGI降临?

当今世界,谁最有可能成为「AI时代的奥本海默」? DeepMind的创始人Hassabis与Anthropic的创始人Dario无疑是热门人选。 近日,这两位AI巨头罕见地坐到了一起,在《经济学人》的访谈中,直面AGI(通用人工智能)带来的种种争议与挑战。
3/13/2025 10:50:00 AM
新智元

14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位

揭示显式CoT训练机制:思维链如何增强推理泛化能力

基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。
3/12/2025 9:48:19 AM
机器之心

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。 然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。
3/12/2025 9:40:28 AM
机器之心

稚晖君机器人“葡萄缝针”神技再现江湖,这次是人形的!骑自行车惊呆众人:又抽象又硬核

刚刚! 鸽了两年之后,稚晖君罕见更新视频——上线号称史上最复杂项目灵犀X2,能够像人一样灵动地骑自行车。 评论区早已经是听取哇声一片。
3/11/2025 1:19:26 PM
量子位

DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!

在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。 这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。 尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。
3/11/2025 10:00:00 AM
AIGC Studio

哥大本科生靠AI横扫硅谷大厂offer,学校震怒!预言码农两年内淘汰准备退学

硅谷大型科技公司FAANG的面试,对不少人来说都是一场噩梦。 结果,哥大的一位大二学生Roy Lee,居然利用AI,顺利斩获了亚马逊、Meta和TikTok的offer,获得了直通梦中情厂的实习机会! 这个消息一出,震惊了不少人。
3/11/2025 9:40:00 AM
新智元

一次搭建完胜1亿次编码,MCP硅谷疯传!Anthropic协议解锁智能体「万能手」

上一周,智能体迎来里程碑式的一周。 从Manus及其开源复现,到Opera的浏览器操作AI智能体、AI工作伴侣Archer,再到多种个人项目,将Agent推向热议风口。 在处理动辄需要十几甚至几十分钟的复杂任务时,涉及到3个核心能力:规划工具使用记忆其中,第二趴是让智能体「动起来」的关键,真正与现实世界进行交互。
3/10/2025 1:08:37 PM
新智元

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

一个只有15亿参数的小模型,竟然能在相同token预算下挑战GPT-4o的性能! 最近,CMU团队推出了「长度控制策略优化」(LCPO),它让AI的推理过程不再是「一刀切」,而是像个聪明管家,能根据任务需求灵活调整「思考」长度。 无论是啃下复杂的数学难题,还是快速解答简单问题,这个名叫L1的模型都游刃有余。
3/10/2025 9:38:00 AM
新智元

Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现

预训练Scaling  Law到尽头了? ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。 他公布了最新的关于多模态Scaling的最新见解,而训练数据达到了1000亿的规模!
3/10/2025 9:30:00 AM
新智元

DeepSeek占比升至9.6%,稳居全球第二!「全球生成式AI行业趋势」发布

近日,SimilarWeb发布了最新的「全球生成式AI行业趋势」报告。 报告中详细分析了截至2月28日,全球生成式AI工具在各个领域的趋势和表现。 报告链接:,AI工具在过去12周的增速约为20%,其中代码自动补全与DevOps增长高达72%。
3/10/2025 8:55:00 AM
新智元

Anthropic预测26年AI智力堪比诺奖得主!美国AI行动计划发布在即,五角大楼紧急布局

截止到2026-2027年,AI智力水平将达到诺奖级得主。 Anthropic最新长文,再次宣告,人类离超级智能体近在咫尺。 报告地址:,CEO Dario Amodei在「Machines of Loving Grace」一文中,曾大胆预测——2026年底-2027年初,人类将见证强大AI系统诞生。
3/10/2025 7:30:00 AM
新智元

智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!

BGE系列模型自发布以来广受社区好评。 近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。 BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。
3/7/2025 8:40:00 AM
新智元

全球首款通用AI助手发布 中国AI产品Manus一夜刷屏

近日,全球首款通用Agent(自主智能体)产品Manus正式开启了部分内测,这标志着AI自主智能领域迈出了关键性的一步。 Manus以其强大的独立思考、规划并执行复杂任务的能力,直接交付完整成果,展现了前所未有的通用性和执行能力。 与现有的AI助手相比,Manus不仅具备多任务操作能力,如Claude的Computer use等,更能在多个领域实现更高的执行质量。
3/6/2025 10:52:02 AM
站长之家

DeepSeek AI推出Smallpond:基于DuckDB与3FS的轻量级数据处理框架

随着数据集的不断扩大和分布式处理的复杂性加剧,现代数据工作流面临越来越大的挑战。 许多组织发现,传统的数据处理系统在处理时间、内存限制和分布式任务管理方面存在显著的短板。 在这样的背景下,数据科学家和工程师往往需要花费大量时间在系统维护上,而非从数据中提取有价值的见解。
3/6/2025 10:06:00 AM
AI在线

重磅!阿里深夜推出全新推理模型,仅1/20参数媲美DeepSeek R1

就在刚刚,阿里Qwen 团队 正式发布了他们最新的研究成果 —— QwQ-32B 大语言模型! 这款模型不仅名字萌萌哒 (QwQ),实力更是不容小觑! 😎相信关注大模型领域的朋友们都知道,模型参数量的大小往往与性能成正比。
3/6/2025 9:55:49 AM
AI寒武纪

MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!

一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。 核心问题当前 3D 场景重建方法受限于:数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
3/6/2025 12:15:00 AM
萍哥学AI