AI在线 AI在线

理论

模型吞噬代码,Agent重构世界:当AI Agent与模型协同进化

模型吞噬代码,Agent重构世界:当AI Agent与模型协同进化

大家好,我是肆〇柒。 AI 圈的进化速度之快,已是不争的事实。 去年,MCP(模型上下文协议)发布,随后 AI Coding 赛道愈发热闹,Cursor、Cline、Devin、MGX 等产品层出不穷。
5/29/2025 9:57:38 AM 肆零柒
如何使用 LLM实现电子表格规范化

如何使用 LLM实现电子表格规范化

一、如何使用 LLM实现电子表格规范化请观察以下电子表格:图片从“为什么”开始图片让我们看一下这个Excel电子表格,其中包含电影奖项的信息。 这是一个典型的、常见的电子表格,每个人都可能在日常工作中使用它。 但它有什么问题呢?
5/29/2025 9:48:22 AM 晓晓
CVPR 2025 | 字节提出个性化多人图像生成新方法ID-Patch,可生成多人合影、姿势可控

CVPR 2025 | 字节提出个性化多人图像生成新方法ID-Patch,可生成多人合影、姿势可控

相信扩散模型(DMs)大家一定都不陌生了,目前已经成为文本生成图像的核心方法,凭借强大的图像生成能力,正重塑艺术创作、广告设计、社交媒体内容生产格局。 现在,用一段文字生成个性化头像都不算啥新鲜事儿了。 不过仍然会有这样一个问题,目前我们看到的基于人物的文生图大多还是生成一个人的,对于多人同时生成的目前还没有很好的样例。
5/29/2025 9:34:14 AM AIGC Studio
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究

搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究

AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。 大语言模型(LLM)驱动的搜索智能体,通过动态拆解问题、交错执行“思考”(推理)和“查找”(检索)来解决复杂任务,展现了惊人能力。 然而,这种深度交互的背后,也隐藏着显著的效率痛点。
5/29/2025 9:21:28 AM
港科大Apple新研究:Tokens使用量减少,模型推理还更强了

港科大Apple新研究:Tokens使用量减少,模型推理还更强了

1 1等于几? 现在的大推理模型(LRMs)已经展现出了非凡的推理能力。 但是面对这样最简单的数学问题,现有的LRMs仍需要花费1400 的tokens来思考。
5/29/2025 9:20:00 AM
准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究! 来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。 该研究已被 ACL 2025 录用。
5/29/2025 9:18:20 AM
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了

今早的一篇爆火论文,彻底颠覆了人们对「强化学习」的传统认知。 仅用随机奖励,甚至是错误答案,也能让AI在数学推理中性能暴涨! 来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。
5/29/2025 9:14:17 AM
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。 对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。 并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
5/29/2025 9:14:00 AM
19岁少年用计算机炼出「神药」,斩获全球大奖!大厂看了都沉默

19岁少年用计算机炼出「神药」,斩获全球大奖!大厂看了都沉默

「少年药神」来了! 来自斯洛伐克的19岁少年Adam Kovalčík,凭借计算机模拟设计的新分子,一举夺得全球顶级大奖! 这些分子有望像广谱抗病毒药物Galidesivir一样有效阻止病毒复制。
5/29/2025 9:10:18 AM
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

在日益强调“思维能力”的大语言模型时代,如何让模型在“难”的问题上展开推理,而不是无差别地“想个不停”,成为当前智能推理研究的重要课题。 中国科学院自动化研究所联合鹏城实验室提出了一种高效的推理策略,赋予推理大模型根据题目难度自主切换思考模式的能力:通过一个小小的省略号作为提示词 多阶段强化学习,引导大模型自主决定是否深度思考、思考多少。 研究背景:大模型“想太多”,是优点还是负担?
5/29/2025 9:08:00 AM
刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

就在今天凌晨,新版DeepSeek-R1正式开源了! DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。 图片项目地址:,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。
5/29/2025 9:07:37 AM 新智元
刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

就在今天凌晨,新版DeepSeek-R1正式开源了! DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。 项目地址:,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。
5/29/2025 9:04:51 AM
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微

开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微

当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者,几乎研究好这份报告可能就够了。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生态全景图,涵盖19个技术领域、135个项目,进一步给出了大模型开发生态的参考系。
5/29/2025 8:58:08 AM
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%

大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%

大模型做数独,总体正确率只有15%? ? ?
5/29/2025 8:47:00 AM
快速理解热门 LLM 大语言模型

快速理解热门 LLM 大语言模型

作者 | masonpy本文尽量用最简单的方式, 帮读者理解 LLM,Transformer, Prompt, Function calling, MCP, Agent, A2A 等这些基本概念。 表述时不追求绝对准确,尽量通俗易懂,部分内容有个人理解的成份,内容难免疏漏, 欢迎指正。 注意:本文需要你有基本的代码阅读能力,当然非开发阅读也不会很困难。
5/29/2025 8:30:00 AM 腾讯技术工程
AlphaEvolve: 谷歌DeepMind迈向通用人工智能(AGI)的突破性一步

AlphaEvolve: 谷歌DeepMind迈向通用人工智能(AGI)的突破性一步

译者 | 李睿审校 | 重楼谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。 它基于进化计算原理,通过LLM驱动的独立进化流程,不断优化代码。 AlphaEvolve不仅超越人类专家设计的算法,还在数学和谷歌基础设施优化上取得突破。
5/29/2025 8:19:49 AM 李睿
单人公司能否纯凭AI智能体发育成独角兽?有戏!

单人公司能否纯凭AI智能体发育成独角兽?有戏!

译者 | 核子可乐审校 | 重楼如果你正在寻找一种替代打工生活的选择,那么自营职业——也被称为“个体创业”(solopreneuring)——可能是个好思路。 你可以凭借自己的软件开发、设计或商业技能作为独立承包商谋求发展。 或者,大家甚至可以独立创办一家公司以获得更大的回报。
5/29/2025 8:13:35 AM 核子可乐
马斯克新推出的 AI 编程助手速度是高级工程师的 10 倍,整个技术团队都面临挑战

马斯克新推出的 AI 编程助手速度是高级工程师的 10 倍,整个技术团队都面临挑战

从特斯拉的自动驾驶技术,到 Neuralink 的脑机接口,马斯克旗下的 AI 项目一直在推动技术边界。 最新发布的 AI 编程助手——xAI CodeGen,声称其开发速度是资深开发者的十倍以上。 图片作为一款先进的 AI 工具,xAI CodeGen 是否真的能够理解复杂逻辑、准确调试,并生成结构清晰、适合生产环境的代码,成为业界关注的焦点。
5/29/2025 8:10:51 AM 前端小智