大模型
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
Cursor的首个编码模型,刚刚发布了! 最新进展,Cursor 2.0正式发布,并且首次搭载了「内部」大模型。 没错,不是GPT、不是Claude,如今模型栏多了个新名字——Composer。
Amazon重磅新作SimRAG:让大模型“自我进化”,轻松适配专业领域问答任务
在大模型技术飞速发展的今天,通用大模型在日常对话、内容创作等场景中已展现出卓越能力,但当面对医学、科学、计算机等专业领域时,却常常“力不从心”。 分布偏移导致模型认知与领域数据脱节,高质量领域数据稀缺推高训练成本,传统RAG技术又难以精准捕捉领域信息——这些痛点成为大模型落地专业场景的关键阻碍。 而Amazon在2025年NAACL会议上发表的SimRAG(Self-Improving Retrieval-Augmented Generation) 框架,为解决这些问题提供了全新思路。
从反馈中学习:强化学习如何提升百晓生问答精准度
第一部分:引言在人工智能技术飞速发展的今天,智能问答系统已成为连接信息与用户的重要桥梁,它们不仅重塑着人机交互方式,更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。 在此背景下,"百晓生"作为一款基于RAG(检索增强生成)与外挂知识库的大型语言模型(LLM)驱动的问答产品,专注于为上门工程师提供精准的质检知识答疑服务。 经过一年的持续迭代与优化,该产品已从最初的10%小流量实验,逐步开放至全国范围,目前每日稳定为超过3000名工程师提供支持,连续多周问答准确率保持在90% 。
抖音副总裁李亮:AI 技术助力谣言治理,构建可信平台环境
近日,央视社会与法频道发布了一则视频,讨论了人工智能(AI)在假新闻制造中的作用。 对此,抖音集团副总裁李亮发表了看法。 他指出,AI 和算法同样是工具,虽然 AI 使得谣言的制造变得更加容易,但抖音也在利用 AI 技术来治理谣言。
大模型也需要「自知之明」:KnowRL教会AI识别知识边界,推理能力反超SFT
今天给大家分享一篇刚出炉的大模型研究——《KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality》。 这篇论文提出的"知识边界学习"机制解决了一个特别棘手的问题:为什么模型参数越大反而越容易一本正经地胡说八道? 论文PDF可以直接戳这里下载: "推理-幻觉"两难?
中小企业AI落地的算力“最优解”:一台插电即用的Mac mini
今天来聊下中小企业大模型应用落地的一些市场观察。 年初到现在,加起来聊过的两百来家企业中,约摸八九成都是年营收过亿,或者从规模上看,公司人数往往都在大几百人以上。 在新技术应用的初期,预算相对充足的企业中先行先试,很符合一般规律。
大模型在具身推理上「翻车」了?4496 道题全面揭示短板
祁煜,2023年本科毕业于北京大学信息科学技术学院。 目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。 具身智能是近年来非常火概念。
AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
实锤! LLM也有自己的「价值观」? 想象一下,你让AI帮你做一个商业计划,既要「赚钱」,又要「有良心」。
企业级 RAG 系统实战:10 个项目踩过的坑(附代码工程示例)
25 年以来写了 55 篇技术 Blog,字数也累计超过 50 万字。 每篇内容背后都是几十甚至上百个小时的项目工程实践的经验提炼,虽然原创性没话说,但还是产出效率太低,以及也难免受限于个人的经验和水平。 So,从这篇开始,我会把日常闲暇时观摩的一些海外优质内容整理和加工后,附上自己的不同观察和思考也通过文章或者视频的形式发布出来,给各位做个参考。
告别“模型军备竞赛”:专业化小模型正成为企业AI落地的务实之选
但规模大并不总是意味着更好,因为规模大通常意味着复杂度增加、灵活性降低。 渐渐地,企业开始意识到,万亿参数模型并不总是其业务的最佳解决方案,并非所有AI解决方案都需要一个巨型大语言模型,更专注的方法有望带来更好的成果。 针对相关数据的特定任务进行调整的小型专用模型正日益受到青睐。
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事
当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。 从数学解题到代码生成,RLVR本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑——但现实是,以GRPO为代表的主流方法正陷入「均值优化陷阱」。 这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。
揭秘大模型的魔法:从零实现一个简化版的GPT 模型
大家好,我是写代码的中年人! 今天我们结合代码从零实现一个简化版 GPT 模型。 近年来,大语言模型席卷了人工智能领域,从 ChatGPT 到 LLaMA,它们以惊人的语言理解和生成能力改变了我们与机器交互的方式。
Kimi k2性能被赞超越 GPT-5,月之暗面再获数亿美元重磅融资
据ZFinance消息, 国内大模型明星创业公司月之暗面(Moonshot AI)近日传出重磅消息,据 ZF 获悉,该公司即将完成新一轮数亿美元的融资。 此次融资距离月之暗面公开披露的上一轮约3亿美元融资仅过去不久(上一次公开信息为2024年8月),显示出资本市场对该公司的信心再次高涨。 这家曾被誉为“中国最受期待的大模型公司”之一的企业,在今年初曾一度因 DeepSeek 的爆发而显得沉寂,其主力产品 Kimi 几乎淡出公众视线。
大模型+矢量数据库:为AI智能体构建内存架构
译者 | 陈峻审校 | 重楼目前,数据科学家们已经熟悉了那些以不同的文件格式作为处理输入与输出的各类机器学习模型。 在大多数情况下,人工智能智能体(AI agent)都需要通过维护上下文,从人机交互中学习,以及按需访问其他模型无法处理的海量知识存储。 这无疑需要庞大的内存架构。
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
大模型在强化学习过程中,终于知道什么经验更宝贵了! 来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO——通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。 实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。
大模型时代的双刃剑:RAG 与 微调 怎么选?
上周在一个技术交流会上,听到两位技术总监争得面红耳赤。 一位坚持说RAG就够了,简单高效还省钱;另一位则认为不微调根本做不出专业应用。 这场争论让我想起很多企业在落地AI项目时的迷茫:到底该选哪条路?
火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight
会议背景近日,NeurIPS 2025公布了录用结果,该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。 据悉本次会议共有21575篇投稿进入审稿阶段,最终5290篇论文被录用,录用论文中共有688篇论文(入选比例3%)被选为亮点文章(Spotlight)。 火山引擎多媒体实验室和北京大学合作的论文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被选为本次会议亮点文章。
奖励机制的陷阱:自演化智能体如何被"带偏"?
大家好,我是肆〇柒。 今天要和大家分享一篇由上海人工智能实验室团队主导的研究《Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents》。 这项研究首次系统性揭示了自演化LLM智能体中潜藏的"误进化"风险——即使基于GPT-4o、Claude-4、Gemini-2.5等顶级模型构建的智能体,在自主演化过程中也可能悄然偏离安全对齐目标,从"助手"蜕变为潜在威胁。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉