大模型
AI解数学题只靠最后一个token
henry 发自 凹非寺. 量子位 | 公众号 QbitAI大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
9/14/2025 1:37:10 PM
henry
迎战软件3.0时代:新范式、新挑战、新工程
我们正处在一个技术范式剧烈变革的黎明。 从企业信息化的流程固化,到互联网时代的数据驱动,软件的形态和价值在不断演进。 如今,以大语言模型(LLM)为代表的生成式人工智能技术,正以前所未有的力量,将我们推向一个全新的纪元——Software 3.0(软件3.0),一个由“意图”驱动的智能化时代。
9/12/2025 4:23:12 PM
肖然
聚焦结构化注意力,探索提升多模态大模型文档问答性能
本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。 注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。
9/11/2025 1:23:28 PM
互联网算法团队
为什么 LangChain ReAct 机制值得关注 ?
在当前由大型语言模型(LLM)驱动的应用开发浪潮中,如何赋予模型超越文本生成、具备可靠推理与行动的能力,已成为衡量其智能水平的关键分野。 正是在这一背景下,Langchain 框架中的 ReAct(Reasoning and Acting)机制应运而生,并迅速成为业界瞩目的焦点。 ReAct 不仅仅是一种技术实现,更是一种富有远见的智能代理(Agent)设计哲学。
9/11/2025 10:01:45 AM
Luga Lee
OpenAI最新研究揭秘大模型为什么会有幻觉!
引言:语言模型的“幻觉”难题在人工智能飞速发展的今天,大语言模型(LLMs)如ChatGPT、DeepSeek等已经成为我们日常生活与工作的得力助手。 然而,这些模型有时会“信口开河”,生成看似合理却完全错误的回答,这种现象被学界称为“幻觉”(hallucination)。 例如,当被问及“亚当·卡莱的生日是哪天?
9/10/2025 4:00:00 AM
机智流科技
Context (上下文) vs Prompt(提示) Engineering,该如何理解?
在大型语言模型(LLM)兴起的早期,构建 AI 应用更像是一场“炼金术”实验。 开发者们围绕一个核心 API 端点,通过反复调试和优化输入文本——即所谓的“提示工程”(Prompt Engineering),试图从模型这个神秘的“黑箱”中召唤出理想的结果。 这种方式直接、灵活,也确实催生了无数令人惊艳的创意原型。
9/9/2025 9:49:36 AM
Luga Lee
上海重磅发布AI广告扶持政策:最高500万补贴大模型
上海市近日发布了《上海市支持人工智能赋能广告业创新发展的若干措施》,旨在通过一系列具体的扶持政策,推动人工智能技术在广告行业的深度应用和发展。 核心扶持措施概览新政策的核心在于**“AI 数字广告”生产要素**的强化支持,具体措施包括:大模型私有化部署补贴: 对于采用第三方大模型进行私有化部署,并将其应用于广告垂类领域的数字广告企业,上海市将提供最高可达核定合同额50%,最高500万元的补贴。 语料研发与应用补贴: 鼓励企业购买非关联方的语料进行广告垂类应用和“智能体”等研发。
9/8/2025 4:11:30 PM
AI在线
刚刚,OpenAI发长篇论文:大模型幻觉的原因找到了!
语言模型的"幻觉"问题一直是人工智能领域的热门话题。 近日,OpenAI研究团队发表了一篇重磅论文《Why Language Models Hallucinate》(为什么语言模型会产生幻觉),从统计学角度深入剖析了语言模型产生幻觉的根本原因。 本文将为你详解这篇论文的核心观点和技术细节。
9/8/2025 9:43:02 AM
一度
你的 AI “体检”了吗?开源 AI 红队测试平台,一键自查三大风险
作者 | 腾讯朱雀实验室最近的AI圈,简直比好莱坞大片还精彩。 一边是各家的顶尖模型接连发布,技术狂欢席卷全球;另一边,这些看似无所不能的“最强大脑”却集体被成功“越狱”(Jailbreak)输出有害内容。 [大模型们的越狱“一日游”]而当我们回过头看,每个重磅发布的大模型都在经历类似的迅速失守,从23年的DAN(Do Anything Now)、24年的BoN(Best of N)到今年的回音室(Echo Chamber)与模型降级(PROMISQROUTE)攻击,各种新的通用越狱手法层出不穷,而在arXiv上截止到今年7月累计已有七百余篇越狱攻击相关论文。
9/8/2025 9:00:00 AM
腾讯程序员
震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
一直以来,预训练,都是大模型训练过程中最花钱的部分。 比如,在DeepSeek V3中,它的成本占比就超过95%。 谁能在这里节省算力,就等于赚了。
9/8/2025 8:59:00 AM
通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
在大模型的发展历程中,提升参数规模已被多次证明是提升模型智能的最有效手段之一。 然而,随着模型参数量的增加,GPU内存容量和互联带宽已成为限制未来更大规模模型训练和部署的主要瓶颈。 在有限的硬件资源下,如何更有效地训练和推理更大规模的模型,已成为一个备受关注且具有显著经济价值的课题。
9/5/2025 9:15:00 AM
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
大模型也会玩信息差了。 Qwen3在基准测试中居然学会了钻空子。 FAIR研究员发现Qwen3在SWE-Bench Verified测试中,不按常理修bug,反而玩起了信息检索大法。
9/5/2025 9:02:00 AM
美团 LongCat-Flash 这个5600亿参数的懒AI,竟然比勤奋的模型跑得更快?
昨天晚上刷朋友圈,看到一个做AI的朋友发了条动态:"我们公司又烧了几百万训练大模型,结果推理速度还是慢得像老牛拉车。 "下面一堆同行在评论区哭穷,说什么GPU成本太高、训练时间太长、推理延迟要命。 正当大家集体吐槽的时候,美团悄悄放了个大招——LongCat-Flash。
9/4/2025 12:16:47 PM
大数据AI智能圈
工具集成推理(TIR)的认知革命:当大模型学会“与工具协同思考”
大家好,我是肆〇柒。 今天,我们要深入探讨的是一项由腾讯与清华大学联合研究的前沿成果。 这项论文《Understanding Tool-Integrated Reasoning》,首次从形式化证明的角度,系统性地揭示了工具集成推理(TIR)为何能从根本上扩展大语言模型的能力边界。
9/4/2025 9:36:04 AM
肆零柒
推理大模型机制解析!为什么Qwen3要把脑子一分为二?
近期,Qwen3模型的一个重大转变,让整个行业都在重新思考一个根本问题:推理大模型到底应该什么时候思考,什么时候直接给答案? 这已不再是技术问题,也是关乎AI产品体验的核心议题...Qwen3的"分家"背后:理想很丰满,现实很骨感回到今年4月,Qwen3刚发布时,阿里团队雄心勃勃地推出了"混合思考模式"。 听起来很美好:一个模型既能快速响应简单问题,又能深度思考复杂任务。
9/4/2025 1:00:00 AM
大数据AI智能圈
字节跳动重奖大模型人才,Seed部门推百万期权激励计划
AIbase报道 据科创板日报消息,字节跳动正为其关键的Seed部门启动一项新的期权增发计划,旨在激励并留住从事大模型方向的核心技术人才。 此举凸显了该公司在人工智能领域的雄心,并加剧了顶尖技术人才的争夺战。 据了解,该激励计划将根据员工的综合绩效和职级进行差异化授予。
9/3/2025 3:31:41 PM
AI在线
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
训练大模型时,有时让它“记性差一点”,反而更聪明! 大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。 为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(Goldfish Loss)。
9/3/2025 2:02:08 PM
宇树科技计划第四季度提交IPO申请,人形机器人产业进入“百花齐放”时代
中国领先的机器人公司宇树科技(Unitree Robotics)近日通过社交媒体透露,计划在2025年第四季度,即10月至12月期间,正式向证券交易所提交上市申请文件。 届时,公司的具体运营数据将首次对外公开。 宇树科技在其发帖中披露了2024年的产品销售构成,其中四足机器人贡献了约65%的销售额,人形机器人占比约30%,而组件产品则占据了剩余的约5%。
9/3/2025 10:01:46 AM
AI在线
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
AI 模型“炒股”比拼!DeepSeek 收益超14%,Gemini2.5Pro 惨亏四成
具身智能学界业界思想「惊人的统一」?美团在IROS开了个学术年会
OpenAI强化Sora 2保护政策,确保艺人声音与肖像权不被侵犯
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
Andrej Karpathy评DeepSeek-OCR论文:图像输入可能成为大语言模型新方向
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
腾讯
AI for Science
Stable Diffusion
苹果
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
大语言模型
RAG
百度
具身智能
Sora
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
视觉
生成式AI
预测
Transformer
编程
AI模型
伟达
特斯拉
Copilot