AI在线 AI在线

理论

大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源

当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。 它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。 为了打破这一瓶颈,来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo,一个专为训练和评测大模型智能体(LLM Agents)设计的“交互式武馆”。
7/28/2025 8:45:00 AM

超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架

专门适用超大模型、带来2.18倍推理加速,最新投机采样训练框架开源! SGLang团队联合美团搜推平台、Cloudsway.AI开源SpecForge。 SGLang,当前趋势下最受青睐的推理框架之一,为DeepSeek提供了专属优化,也深受英伟达、AMD、xAI等厂商喜爱。
7/28/2025 8:42:00 AM

研究人员发现奇怪现象:思考时间越长,大模型越笨

Michael Nuñez@MichaelFNunez译者 | 核子可乐审校 | 重楼Anthropic一项最新研究表明,AI模型耗费更长时间“思考”后表现未必更好,在某些情况下性能甚至会显著下降。 这一发现,挑战了AI行业推理浪潮的理论根基。 这项由Anthropic公司AI安全研究员Aryo Pradipta Gema及其他几位研究人员主导的项目,发现了所谓“测试时计算反比例”迹象,即延长大语言模型的推理长度实际上会降低其在多种任务中的表现。
7/28/2025 7:45:36 AM
核子可乐

数据的五宗罪,道出了数据治理的真正内涵

"老板,我们的数据量已经达到了PB级别! " "那我们的业务决策准确率提升了吗? " "这个......" 这就是当下企业面临的真实困境:数据的"富营养化"。
7/28/2025 6:00:00 AM
大数据AI智能圈

与Claude协作开发Go项目:AI编程实战指南

在软件开发领域,大语言模型正在改变我们编写代码的方式。 作为一名有着丰富实践经验的开发者,我发现与Claude这样的AI工具协作时,关键不在于让AI完全接管开发工作,而在于建立合适的约束和工作流程。 本文将分享我在使用Claude进行Go语言开发时总结的最佳实践,包括项目结构设计、代码质量控制、智能体协作以及如何构建一个可靠的AI结对编程工作流。
7/28/2025 4:22:00 AM
源自开发者

8个月1亿美元ARR神话:Lovable是如何"干翻"OpenAI和Cursor的?

你有没有发现,最近程序员圈子里又开始"内卷"了? 不过这次不是卷技术,而是在卷一个让人震惊的数字:8个月,1亿美元ARR。 说这个数字的时候,我自己都觉得有点不太现实。
7/28/2025 4:10:00 AM
阿丸笔记

协同 RAG-Reasoning:让大模型边想边查的“深度研究”范式

大家好我是肆〇柒。 在AI领域,大型语言模型(LLM)已经展现出卓越的语言生成能力,并在诸多任务中取得了显著成果。 然而,LLM 存在两大局限:一是知识幻觉,因其知识存储静态且参数化,易生成错误内容;二是复杂推理能力不足,难以应对现实世界的复杂问题。
7/28/2025 3:00:00 AM
肆零柒

Dify新版1.7发布,这两个重要更新你必须知道!

Dify 又发布新版了,这次也是直接从 V1.6.0 升级到 V1.7.0 了,那这次升级的主要内容是啥呢? 接下来我们一起来看。 这次升级除了修复了一些列 BUG 和部分功能优化之外,最大的升级是提升了 Dify 的安全性和版本兼容性。
7/28/2025 2:00:00 AM
磊哥

FastAPI开发AI应用:模型新增图片理解

本文将深入讲解如何在 FastAPI AI 聊天应用中实现图片理解功能,让 AI 能够理解和分析用户上传的图片内容。 通过本教程,你将学会如何构建完整的多模态交互系统,包括图片上传、预处理、多模态消息格式化以及流式响应处理等核心技术。 本文概述想象一下,当你向 AI 发送一张图片时,AI 不仅能看懂图片内容,还能基于图片进行深度分析和对话——就像一个拥有视觉能力的智能助手。
7/28/2025 1:55:00 AM
wayn

OpenAI 多智能体研究框架:构建高效协作的AI代理系统

在人工智能快速发展的今天,单一AI模型已难以满足复杂任务的需求,多智能体系统正成为解决复杂问题的重要方向。 OpenAI推出的多智能体研究框架(Multi-AI Agent Research Framework)通过协调多个各司其职的AI代理,实现了远超单一模型的研究能力和应用价值。 本文将深入解析这一框架的核心原理、架构设计、实际应用及未来潜力,为开发者和企业提供全面的参考指南。
7/28/2025 1:33:00 AM
大模型之路

Claude Code官方揭秘!内部使用指南曝光:员工都是这样用CC的!把 AI 当老虎机,不改错直接重来!网友:你有钱你任性!

出品 | 51CTO技术栈(微信号:blog51cto)Claude团队,你是懂“写教程”的! 昨天,Claude 官方发布了一篇实打实的案例报告,标题相当直白:《Anthropic 团队是怎么用 Claude Code 的? 》标题越朴素,内容越干货。
7/28/2025 1:00:00 AM
伊风

Hinton上海演讲:大模型跟人类智能很像,警惕养虎为患

深度学习之父、诺奖得主Hinton在中国的首次公开演讲,实录来了! 演讲主题是《数字智能是否会取代生物智能》。 主要观点如下:人类有可能就是大语言模型,人类也会和大语言模型一样有幻觉。
7/27/2025 6:08:51 PM

AI教父Hinton对话上海AI Lab周伯文:多模态聊天机器人已经具有意识,让AI聪明和让AI善良是两件事

AI圈众所周知,家族渊源与中国颇深的Geoffrey Hinton因为患有严重的背疾几乎无法长途旅行,只在去年因为领取诺奖才勉强“带伤”飞抵瑞典。 所以当本周的一张他与上海市领导会面照片出现在国内互联网络的时候,立刻引爆了朋友圈——终于可以在中国一睹教父真容。 △图片来自“上海发布”不过Hinton此次的中国上海之行,参与的基本都是闭门以及定向邀请研讨,7月26日下午,他与上海人工智能实验室主任周伯文的对话此次中国行程里的唯一一场面向AI和科学前沿研究者的公开对话活动,这也是他中国之行的最后一天,这场浓缩高密度智慧的尖峰对话,将Hinton的上海之行推向新高潮。
7/27/2025 6:08:51 PM

阿里宋刚:突破用户体验瓶颈,将AI眼镜真正带入大众消费市场

7月26日,2025世界人工智能大会(WAIC)开幕首日,阿里巴巴发布了首款自研AI眼镜——夸克AI眼镜的技术研发进展。 负责该项目的阿里智能信息事业群终端业务负责人宋刚表示,阿里巴巴凭借AI能力与生态协同,突破用户体验瓶颈,将推动AI眼镜真正带入大众消费市场。 在WAIC人工智能产业终端发展论坛上,宋刚提出,AI眼镜会是智能穿戴方向最重要的产品形态,它将成为人类另一双“眼睛”和“耳朵”,具备极强的场景穿透能力。
7/26/2025 7:00:45 PM

推荐一个超好用的开发神器,AI驱动!太省心了!

在日常 API 开发与测试过程中,最让研发、测试头疼的不是写复杂算法,而是那些 "不得不做却又毫无成就感" 的重复性工作:参数命名、脚本编写、断言构建、文档完善……这些琐碎而关键的环节虽然不复杂,但却极其耗时,且容易因疏忽导致质量隐患。 如果说,这些活儿都能交给 AI 呢? 今天,咱们就来扒一扒,Apipost 的 AI 能力到底是怎么在这些要命的环节里“搭把手”的,帮我们把时间抢回来,用在真正有价值的地方。
7/26/2025 12:00:00 AM

AI破解宠物心声,读懂你的猫狗?全球首个AI与动物感知中心揭秘

养过宠物的人,会忍不住思考这些动物是如何思考的。 一个名为Traini的app,则号称能够基于大模型PetGPT,读懂宠物的叫声和面部表情,帮助主人理解宠物的情绪和需求。 descript近日,伦敦政治经济学院(LSE)将于9月30日启动Jeremy Coller动物感知中心将会给出回答。
7/25/2025 3:24:47 PM
新智元

WAIC抢先爆料:金融“黑马”大模型超DeepSeek刷新SOTA,论文已上线

又到了一年一度“中国AI春晚”WAIC,各家大厂动作频发的时候。 今年会有哪些看点? 你别说,我们还真在扒论文的过程中,发现了一些热乎线索。
7/25/2025 3:24:17 PM

训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平

机器人能通过普通视频来学会实际物理操作了! 来看效果,对于所有没见过的物品,它能精准识别并按照指令完成动作。 比如清理桌面垃圾,或者是从零食筐里找到人类想要的糖果。
7/25/2025 3:22:20 PM