资讯列表
17000字Claude 系统提示启示:Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29
来自Andrej Karpathy的最新洞察,以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点:我们当前的LLM学习范式中,至少缺失了一个重要环节。 他将其暂称为“系统提示词学习”(System Prompt Learning)他认为:预训练(Pretraining) 是为了让LLM掌握海量知识微调(SL/RL) 则是为了塑造其习惯性行为这两者都涉及模型参数的改变。 但Karpathy指出,很多人类学习更像是“系统提示词”的调整:遇到问题、想出办法,然后用明确的语言“记住”下次如何应对。
AI逼疯七巨头,马斯克们深陷中年危机!
中年危机来势汹汹,就连昔日风光无限的科技巨头们也逃不过。 前一秒,你还是那个颠覆传统行业的年轻人;下一秒,就可能像马斯克说的那样,「盯着深渊,嚼着玻璃,眼睁睁地看着颠覆浪潮逼近家门口」。 号称美股「科技七巨头」的几家大型公司,似乎都已陷入了这种境地。
Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频
本周二,我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具,来验证涉及任意正参数的给定估计是否成立(在常数因子范围内)。 在项目中,他开发了一个用于自动(或半自动)证明分析中估计值的框架。 估计值是 X≲Y(在渐近记法中表示 X=O (Y))或 X≪Y(在渐近符号中表示 X=o (Y))形式的不等式。
谷歌发76页智能体白皮书!你的「AI替身」已上线
近日,谷歌发表了76页的AI智能体白皮书! 智能体通过感知环境,并利用工具策略性地采取行动,实现特定目标。 其核心原理,是将推理能力、逻辑思维以及获取外部信息的能力融合,完成一些基础模型难以实现的任务,做出更复杂的决策。
九年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用了一个更吸引人的标题:「9 年实现 AGI? OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。 」在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩展,我们最终将造出有能力发现新科学的模型。
机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law
Jim Fan,英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生,最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲,介绍了「解决通用机器人问题的第一性原理」,包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。 其中尤其提到了「物理图灵测试」,大意是说对于一个真实的物理场景和一个指令,会有人类或机器人根据该指令对这个场景进行相应的处理,然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。 很显然,Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。
快手推出 AI 作图工具 Poify,聚焦电商市场
近日,快手正式推出其新型 AI 作图工具 Poify,旨在为电商领域提供更加高效和经济的图像处理解决方案。 与现有的可灵 AI 相比,Poify 在功能上更加专注于 AI 作图,尤其是在电商相关的应用上。 Poify 的核心功能包括文生图和图生图,同时特别针对电商需求推出了一系列创新的 AI 作图能力。
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。 该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。 测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。
马斯克透露 Grok 3.5 尚需优化,预计下周发布
近日,埃隆・马斯克在社交平台 X 上回答了一位网友的提问,谈及他最新的人工智能项目 ——Grok3.5。 该网友询问了 Grok3.5、GPT-03Pro 以及即将发布的游戏 GTA6哪个会先上线。 对此,马斯克坦言:“Grok3.5仍然有些粗糙,预计还需要一周左右的时间进行打磨。
Anthropic推出Claude API网页搜索功能,挑战谷歌搜索
近日,知名 AI 公司 Anthropic 在本月8日宣布,为其 Claude API 引入网页搜索功能,这一举动无疑为以谷歌为首的传统搜索引擎带来了新的挑战。 随着 Claude AI 能够访问最新的网络信息,开发者们可以利用这一功能构建更智能、更具实时性的应用程序,满足用户对最新信息的需求。 通过启用网络搜索工具,开发者在向 Claude 发送请求时,可以获取到现实世界中的最新数据。
亚马逊推出 “火神” 机器人,仓库工人的新机遇与挑战
最近,亚马逊在这一领域展示了其最新成果:一种新型 “能感知” 的 “火神” 机器人,正在取代部分仓库工人的工作。 亚马逊首席执行官安迪・雅西在社交媒体上表示,这款 “火神” 机器人通过处理符合人体工程学的任务,能够提高工作安全性,并为员工提供了提升技能的机会。 根据亚马逊的博客文章,火神机器人可以协助人类从仓库的高处和低处获取物品,这样一来,工人们就不必再频繁攀爬梯子或弯腰劳作。
Claude AI API 引入全新的网页搜索功能
在人工智能领域备受瞩目的公司 Anthropic宣布为其 Claude AI API 引入全新的网页搜索功能。 这一创新标志着 Claude AI 能够实时访问网络信息,从而提升其回答问题的准确性,并为传统搜索引擎如谷歌带来了新的竞争压力。 开发者现在可以在发送请求时启用 Claude 的网页搜索工具。
2025 年度十大 IP 揭晓,DeepSeek App等作品入选
由中国版权协会与中国文化娱乐行业协会指导的 “2025 世界 IP 经济发展大会暨全球 IP 授权博览会” 在广州成功举行。 本次博览会吸引了众多专家和业内人士的关注,最终评选出了 2025 年度十大 IP 和多个细分领域的 TOP10 名单。 此次评选共计有 2368 个参赛 IP 参与角逐,经过专家评审和网络投票的双重筛选,最终确定了十个优秀作品。
字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式
字节Seed首次开源代码模型! Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。 它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。
突发!OpenAI正与微软洽谈新融资,筹备IPO
昨晚,金融时报消息,OpenAI和微软正在重新洽谈数十亿美元的合作条款。 这场谈判旨在让OpenAI能够进行未来的首次公开IPO募股,同时保护微软对前沿AI的访问权限。 微软作为OpenAI最大的支持者,是其重组从非营利转向营利的关键阻碍。
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。
一个「always」站在大模型技术C位的传奇男子
怎么老是你? ? ?
Qwen上新AI前端工程师!一句话搞定HTML/CSS/JS,新手秒变React大神
Qwen上新“AI前端工程师”Web Dev,一句话开发网页应用。 三大件HTML,CSS,JavaScript一个工具全包了,定睛一看用的还是React框架。 几秒钟生成个人网站,布局美观还带特效,接下来改改内容上传GitHub Pages就完事了。