AI在线 AI在线

理论

7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。 这种以人为中心的方式已成为制约创新速度和通向通用人工智能(AGI)的关键瓶颈。 为突破限制,AI-for-AI(AI4AI)应运而生。
6/23/2025 8:56:00 AM

舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍

在 AI 领域,英伟达开发的 CUDA 是驱动大语言模型(LLM)训练和推理的核心计算引擎。 不过,CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足,需要进一步优化或者寻找更高效的替代方案。 近日,CMU 助理教授贾志豪(Zhihao Jia)团队创新玩法,推出了一个名为「Mirage Persistent Kernel(MPK)」的编译器,可以自动将 LLM 转化为优化的巨型内核(megakernel),从而将 LLM 推理延迟降低 1.2 到 6.7 倍。
6/23/2025 8:55:00 AM

监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力

监督学习也能像强化学习一样进行“自我反思”了。 清华大学与英伟达、斯坦福联合提出新的监督学习方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练。 这并不意味着使用“差数据”进行训练,而是在已知的模型计算结果前提下,通过负向数据训练正向模型,即“隐式负向策略(Implicit Negative Policy)”。
6/23/2025 8:52:00 AM

AI也会闹情绪了!Gemini代码调试不成功直接摆烂,马斯克都来围观

AI也会“闹自杀”了? 一位网友让Gemini 2.5调试代码不成功后,居然得到了这样的答复——“I have uninstalled myself.”看上去还有点委屈是怎么回事(doge)。 这事儿可是引起了不小的关注,连马斯克都现身评论区。
6/23/2025 8:50:00 AM

只改两行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用

只需修改两行代码,RAG向量检索效率暴涨30%! 不仅适用于文搜文”、“图搜图”、“文搜图”、“推荐系统召回”多种任务;而且具备良好扩展性,适合十亿、百亿级别大规模应用。 浙江大学高云君、柯翔宇团队联手向量检索领域大佬傅聪,开源新方法PSP(Proximity graph with Spherical Pathway),突破RAG两大难题。
6/23/2025 8:49:00 AM

大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%

“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。 来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。 它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18.4%。
6/23/2025 8:47:00 AM

陶哲轩罕见长长长长长访谈:数学、AI和给年轻人的建议

陶哲轩罕见接受了一次长长长长访谈,把他关于数学、AI、教育和人类智慧的最新认知,都对外分享了。 作为菲尔兹奖得主,陶哲轩一直被认为是当世最伟大的数学家之一,而这次在与MIT技术背景的播客大神Lex Fridman的对话,也是他近年来首次接受超3小时的非学术机构访谈,内容覆盖数学前沿、AI形式化验证、科研方法论等多个硬核议题。 不仅谈论分享了数学和物理相关的专业性观点,还结合当下AI技术迅速发展的背景,作出了很多像基础教育和AI应用的大众话题思考……陶哲轩金句频出,比如:AI和菲尔兹奖的距离,只差一个研究生了。
6/23/2025 8:45:00 AM

四个值得开发人员关注的 MCP 服务

大模型再聪明,也没法自己访问网页、读文件、连数据库,因为它就像被关在“盒子”里——只能对你说话,不能动手做事。 这时候,MCP Server(Model Context Protocol 服务器) 就登场了。 它就像一把钥匙,打开了 AI 的“手脚”。
6/23/2025 8:35:00 AM
zone7

MCP:AI 界的“USB-C接口”,如何让大模型“能说会干”?

你有没有遇到过这种情况? 让AI助手“帮我订明天去上海的机票”,它只会回你“建议你去XX平台搜索”,却没法真的点几下按钮把票订好? 或者让它“给同事发封邮件说会议改期”,它写好内容后还得你自己复制到邮箱发送?
6/23/2025 8:05:00 AM
用户007

为什么AI编程助手需要接受安全审查

在采访中,Sonar的安全专家兼安全治理负责人Silviu Asandei讨论了AI代码助手如何改变开发工作流程并影响安全性,他解释了这些工具如何提高生产力,但如果未经过适当审查,也可能传播漏洞。 AI代码助手对开发者和企业可能忽视的安全风险有哪些?虽然AI代码助手提高了开发者的生产力,但它们在多个领域引入了重大且常被忽视的安全风险。 在人为层面,过度依赖可能培养一种“虚假自信”,导致未经审查的不安全代码和开发者技能下降,这可能创造一个“生成式单一文化”,其中流行AI建议中的一个缺陷会被广泛复制。
6/23/2025 7:12:00 AM
Mirko Zorz

世界模型版《模拟人生》:AI虚拟小人街头演讲拉票,GPT-4o选举获胜

当世界模型高度进化后,里面的「人」都在做些什么? 有人会进行街头演说,吸引到了不少听众,小孩会和机器狗玩:有人会当街作案,警察前去抓捕,又有人会在大庭广众之下求婚:本周五,来自马萨诸塞大学阿默斯特分校(UMass Amherst)、约翰霍普金斯大学、卡耐基梅隆大学的研究者们提出了一个神奇的研究:虚拟社区(Virtual Community)。 虚拟社区将真实世界的地理空间数据与生成模型相结合,为多种不同类型的智能体创建了一个具有社会根基的交互式、可扩展开放世界场景。
6/23/2025 7:05:00 AM
机器之心

自主式AI在企业市场值得关注的九个应用场景

各企业正在部署不断进步的技术,以协助软件编程、创建高级商业智能以及自动化客户支持和人力资源职能。 在过去一年中,智能体在GenAI带来的热潮逐渐退去、人们对不切实际的期望感到失望之后,或许成为了最受关注的技术。 智能体将GenAI更进一步,强调运营决策而非内容生成,这种对业务流程产生影响的潜力,使得Aflac、Atlantic Health System、Legendary Entertainment以及NASA的喷气推进实验室等企业已经开始采用智能体。
6/23/2025 7:00:00 AM
Grant Gross

从AI编程助手到5位数月收入:Repo Prompt成功之路全解析

不到一年前,Eric Provencher为了解决自己在游戏开发中的痛点,创建了一个免费工具——Repo Prompt。 如今,这个工具已经发展成为月收入达到5位数的成功产品,并让他最终选择离职全职投入。 在AI编程工具竞争激烈的2024年,Repo Prompt是如何在众多竞品中脱颖而出的?
6/23/2025 3:00:00 AM
阿丸笔记

Google 正式发布 Gemini 2.5 系列稳定模型

Google 今日宣布,Gemini 2.5 Pro 与 Gemini 2.5 Flash 现已进入稳定状态并全面上线。 同时,Google 还推出了全新的 Gemini 2.5 Flash-Lite(预览版) ——这是目前最快、最具成本效益的 Gemini 2.5 模型。 Gemini 2.5 Pro(稳定版)推理能力增强:模型具备“思考预算”机制,可在响应前先进行“思考”,提高整体准确率,尤其在数学与科学类基准测试中表现优异。
6/23/2025 12:00:01 AM
前端小智

扎克伯格的AI焦虑:150亿美元收购背后的硅谷人才大战

想象一下这个场景:你正在家里刷邮件,突然收到一封来自扎克伯格的邮件,标题是"I have an offer for you"。 这不是段子,这是真的在硅谷发生的事。 而且offer的数字让人眼花缭乱——年薪1000万美元起步。
6/23/2025 12:00:00 AM
阿丸笔记

中国AI新王者?MiniMax-M1背后的技术野心

昨天看到一个消息,说实话挺震惊的。 MiniMax发布了他们的新模型M1,号称是全球首款开放权重的大规模混合注意力推理模型。 听起来很厉害对吧?
6/20/2025 6:45:01 PM
阿丸笔记

马斯克宣布回归:搞DOGE不如搞AI!用第一性原理搞定万卡集群搭建;Grok 3.5重点搞推理!回忆创业路:亲手写互联网最早黄页

出品 | 51CTO技术栈(微信号:blog51cto)告别政坛,马斯克宣布要回归“主线任务”了! 在 Y Combinator 的 AI 创业学校演讲上,Elon Musk 正式宣布要回到他真正关心的事上:AI、太空、人类的未来。 他坦言AI才是影响人类最深远的要素,并抛出一句极具画面感的比喻:“我感觉,改革(美国)政府就像在清理一个满是针头、排泄物和垃圾的海滩。
6/20/2025 4:46:12 PM
伊风

OpenAI开源全新客服智能体框架——解读其在企业市场不断扩张的战略布局

OpenAI发布了一款新的开源演示程序,让开发者能够亲身体验如何使用Agents SDK构建智能、工作流程感知的智能体。 正如AI领域的意见领袖和工程师Tibor Blaho(第三方ChatGPT浏览器扩展AIPRM的创建者)首次发现的那样,OpenAI的新客户服务智能体在AI代码共享社区Hugging Face上以宽松的MIT许可证发布,这意味着任何第三方开发者或用户都可以免费获取、修改并部署该代码,用于其自身的商业或实验目的。 此智能体示例展示了如何在专门智能体(如座位预订、航班状态、取消和常见问题解答)之间路由与航空公司相关的请求,同时强制实施安全性和相关性保障措施。
6/20/2025 2:38:43 PM
Carl Franzen