模型
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?
CoT(Chain-of-thought)大家都很熟悉了,通过模仿「人类解题思路」,进而大幅提升语言模型的推理能力。 这几天,一个名为 CoRT(Chain-of-Recursive-Thoughts)的概念火了! 从名称上来看,它在 CoT 中加入了「递归思考」这一步骤。
5/12/2025 2:24:07 PM
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。 论文标题:Multi-party Collaborative Attention Control for Image Customization论文地址::,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。 从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。
5/12/2025 2:16:52 PM
字节跳动发布开源代码模型Seed-Coder,8B参数引领编程新风潮
字节跳动Seed团队正式推出全新开源代码模型Seed-Coder,以其卓越的代码生成、补全、编辑及推理能力引发业界广泛关注。 作为一款8B参数规模的模型,Seed-Coder在多个基准测试中超越同级别竞品,展现出强大的编程潜力和高效的数据处理设计。 模型概览:8B参数,32K上下文,MIT协议开源Seed-Coder是一个专注于代码生成、编程和软件工程任务的模型系列,包含三个主要变体:Seed-Coder-8B-Base:基于模型为中心的代码数据预训练,奠定坚实基础。
5/12/2025 11:00:52 AM
AI在线
MCP 与创新悖论:开放标准为何能拯救 AI
模型上下文协议(MCP)的出现,预示着人工智能应用生态系统即将发生根本性变革。 由 Anthropic 于2024年11月推出的 MCP,旨在规范 AI 应用程序与其训练数据之外的世界进行交互的方式。 正如 HTTP 和 REST 为 Web 应用和服务间的连接奠定了基础,MCP 正在为 AI 模型与各种工具的连接建立统一的标准。
5/12/2025 10:01:16 AM
AI在线
用户提问方式影响AI模型准确性,简洁回答易导致错误信息
近期,法国人工智能研究机构 Giskard 进行了一项关于语言模型的研究,结果表明,当用户要求简短回答时,许多语言模型更可能生成错误或误导性的信息。 该研究使用了多语言的 Phare 基准测试,专注于模型在现实使用环境中的表现,尤其是它们所产生的 “幻想” 现象。 幻想指的是模型产生虚假或误导性内容的情况,而先前的研究显示,这一问题占据了大型语言模型所有记录事件的三分之一以上。
5/12/2025 10:01:12 AM
AI在线
谷歌再破界限:Gemini 2.5 Pro实现6小时视频理解,AI视觉能力迈入新纪元
谷歌Gemini2.5Pro视频理解能力再升级,这款旗舰AI模型不仅支持长达6小时的视频分析,还拥有高达200万Token的超大上下文窗口,同时首次实现通过API直接解析YouTube链接。 官方数据显示,该模型在VideoMME基准测试中达到84.7%的准确率,与行业顶尖水平的85.2%仅有一线之差,彰显了其强劲实力。 这项突破性技术现已通过Google AI Studio向开发者开放体验。
5/12/2025 10:01:12 AM
AI在线
ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot,让表情包、动漫人物、玩具等“开口说话”
今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限,FaceShot 的动画效果可应用于各个领域的角色,包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。 每个角色都能流畅地跟随行车视频的面部动作,同时保留其原始身份,从而产生出色的动画效果。 FaceShot 的可视化结果。
5/12/2025 9:28:00 AM
AIGC Studio
17000字Claude 系统提示启示:Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29
来自Andrej Karpathy的最新洞察,以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点:我们当前的LLM学习范式中,至少缺失了一个重要环节。 他将其暂称为“系统提示词学习”(System Prompt Learning)他认为:预训练(Pretraining) 是为了让LLM掌握海量知识微调(SL/RL) 则是为了塑造其习惯性行为这两者都涉及模型参数的改变。 但Karpathy指出,很多人类学习更像是“系统提示词”的调整:遇到问题、想出办法,然后用明确的语言“记住”下次如何应对。
5/12/2025 9:13:00 AM
AI逼疯七巨头,马斯克们深陷中年危机!
中年危机来势汹汹,就连昔日风光无限的科技巨头们也逃不过。 前一秒,你还是那个颠覆传统行业的年轻人;下一秒,就可能像马斯克说的那样,「盯着深渊,嚼着玻璃,眼睁睁地看着颠覆浪潮逼近家门口」。 号称美股「科技七巨头」的几家大型公司,似乎都已陷入了这种境地。
5/12/2025 9:06:00 AM
九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
5/12/2025 9:02:00 AM
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。 该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。 测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。
5/12/2025 9:01:02 AM
AI在线
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
字节Seed首次开源代码模型! Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。 它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。
5/12/2025 9:00:00 AM
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。
5/12/2025 8:50:00 AM
哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程!AI也会犹豫、反悔?
近日,来自哈佛大学、布朗大学以及图宾根大学研究者们,共同发表了一项关于Transformer模型与人类认知处理相关性的研究论文:——《Linking forward-pass dynamics in Transformers and real-time human processing》意译过来就是:Transformer模型的“思考过程”与人类大脑实时认知的奇妙相似图片换句话说,它想搞清楚一个“老问题”:AI模型的内部处理过程,和人类大脑的实时认知,有多少相似? 过去我们研究AI和人类的相似性,最常见的做法是什么? “看结果”:让AI做题,看它答对多少,概率分布和人的选择对不对得上。
5/12/2025 2:10:00 AM
文摘菌
UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。 这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。 随着人工智能技术的飞速发展,自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。
5/10/2025 11:00:51 AM
AI在线
商汤科技迈向多模态大模型的新纪元
在过去的两年里,人工智能领域的关注点逐渐转向了大模型的技术发展,而商汤科技作为一家成立不到十年的公司,凭借其在计算机视觉领域的技术积累,正迅速转型,迎接这一浪潮。 尽管在2023年之前,商汤主要聚焦于视觉模型,但随着 DeepSeek R1的发布,市场的重心开始向自然语言处理和大规模参数模型倾斜,商汤的策略也随之调整。 商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”,展现了强大的综合能力,与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。
5/9/2025 4:00:51 PM
AI在线
英伟达开源新一代OCR代码推理 AI 模型,超越 OpenAIo3-Mini表现
英伟达在技术界引起广泛关注,正式发布了其最新的 Open Code Reasoning(OCR)模型套装。 这一模型的推出,不仅展示了英伟达在人工智能领域的创新能力,也为开发者提供了强有力的工具,助力他们在代码推理和生成任务中取得更好的成绩。 ** 模型参数与架构:多样化选择 **英伟达的 OCR 模型套装共包含三种不同参数规模,分别为32B、14B 和7B。
5/9/2025 4:00:51 PM
AI在线
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用