AI在线 AI在线

理论

双重突破:全球首个零售VLA大模型来了!开源OpenWBT让机器人遥操门槛暴降!

学会“适当暂停与总结”,大模型终于实现无限推理。 想象一下,让你一口气不歇地推演一个超复杂数学证明,大脑也会“内存溢出”吧? 如今的大模型在长上下文推理中也面临同样的困境,随着推理长度增加而指数级增长的计算成本,以及由于长度受限而被迫中断推理过程。
6/10/2025 9:07:00 AM

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。 然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
6/10/2025 9:07:00 AM

无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%

试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好? 这正是西湖大学研究团队在最新论文中提出的核心思想。 他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每个输入 prompt 本身当作一份「迷你训练数据」,让模型在生成答案前先「学习」理解这个具体问题。
6/10/2025 9:05:00 AM

大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制

大模型≠随机鹦鹉! Nature子刊最新研究证明:大模型内部存在着类似人类对现实世界概念的理解。 LLM能理解现实世界和各种抽象概念吗?
6/10/2025 9:04:00 AM

破解自驾数据难题!毫米波雷达可控仿真技术新框架来了

以神经网络为核心引擎,让AI承担雷达仿真数据生成任务,还实现对雷达物理特性的建模与控制——这就是光轮智能联合清华AIR、LeddarTech等机构提出的全新自动驾驶神经渲染框架SA-Radar。 在无需雷达具体细节的情况下,它能实现可控且逼真的雷达仿真,支持场景的灵活编辑——包括雷达属性修改、演员移除以及新视角合成,并能显著增强多种下游任务。 作为高级驾驶辅助系统(ADAS)中扮演着至关重要角色的雷达,其相关研究和开发仍面临数据获取的挑战。
6/10/2025 8:45:00 AM

生成式 AI 在 B 端软件中实践的思考

我一直认为 C 端软件和 AI 的结合会更顺畅一些,例如,笔记工具“墨问”最近推出了 MCP 功能,允许我在各种客户端中与 AI 交互,并将结果通过 MCP 保存至其中。 这是因为大部分情况下,C 端对准确性的容忍度更高。 B 端软件则不同,其对准确性要求极高,尤其在金融、医疗等行业。
6/10/2025 8:34:47 AM

大厂实践: LLM 加速大规模测试迁移

Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移,将 3500 个测试文件从 Enzyme 更新为 React测试库(RTL,React Testing Library)。 最初我们估计这需要 1 年半的时间来手工完成,但通过使用前沿模型和强大的自动化组合,我们在 6 周内完成了整个迁移。 本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战,如何通过 LLM 解决这些挑战,以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。
6/10/2025 8:15:00 AM
俞凡 DeepNoMind

我如何仅用 0.80 美元使用 Cursor 构建 17,000 行代码库

市面上出现过不少工具来来去去,但 Cursor 搭配 Claude Sonnet 4 这组合,绝对称得上革命性。 三小时内,仅在 /lib 目录,就生成了超过 17,000 行代码,花费却不到一美元。 要么 Cursor 在赔钱运营,就像我叔叔烤火鸡烤焦那样惨烈,要么我找到了一个让 AI 编码极度低价的秘密。
6/10/2025 8:10:59 AM
前端小智

AI驱动型企业数据治理的三大关键支柱

数据治理已从合规必要性转变为AI驱动型企业的战略支柱。 随着数据量在云端、边缘和混合环境中激增,围绕静态策略和定期审计构建的传统治理模式正日益失效。 AI和自动化要求治理框架能够实时运行,动态适应监管要求、安全威胁和业务需求。
6/10/2025 7:11:00 AM
Yash Mehta

如何解决导致GenAI程序沉没的两个问题

在GenAI时代,发展轨迹呈现出典型的“进两步,退一步”模式。 随着公司逐渐掌握GenAI的独特复杂性,初期取得的进展往往伴随着倒退和重复工作,在某些情况下,甚至可能威胁到整个开发进程的停滞。 导致挫败感和延误的原因众多,从人才短缺到持续的数据质量问题不一而足,但根据我们过去两年与超过150家公司合作开展GenAI项目的经验来看,在构建过程中几乎总会遇到两个主要障碍:• 创新失败:流程限制、缺乏专注以及重复性的返工扼杀了创新。
6/10/2025 7:09:00 AM
Curt Jacobsen

如何在不陷入复杂性陷阱的情况下构建生产就绪的 AI 代理

一、从“大而全”到“小而精”的范式转变在医疗管理领域,当凌晨2点的紧急审批因某个隐蔽漏洞被驳回时,那些标榜“全能”的超级智能体架构正在暴露其致命缺陷。 这些试图将资格审核、医疗必要性评估、申诉处理和医患沟通等功能一网打尽的“巨无霸”系统,如同希腊神话中试图吞噬一切的海妖卡律布狄斯,在演示阶段展现出雄心壮志,却在真实医疗场景中成为不可预测的风险黑洞。 这种困境折射出人工智能领域的一个深层矛盾:我们是否应该追求“全能型”智能体,还是回归“专精化”的本质?
6/10/2025 4:18:00 AM
大模型之路

多模态推理模型(LMRM):从感知到推理的演变

大家好,我是肆〇柒。 当下,人工智能正以前所未有的速度改变着我们的生活与工作方式。 其中,推理作为人工智能的核心能力之一,赋予了智能体在复杂环境中做出决策、得出结论以及进行知识泛化的能力。
6/10/2025 3:30:00 AM
肆零柒

我们一起聊聊聊聊智能体的基础架构

2023年下半年,智能体这个概念开始随着AI的突进式发展而被很多人关注起来。 到了2024年,大模型的能力进一步增强,为智能体快速发展提供了底层能力支撑。 随着2025年DeepSeek的爆火,智能体在各行各业的落地应用案例开始明显增加。
6/10/2025 3:00:00 AM
写文章的老张

告别 RAG 还太早?听听 Anthropic 怎么说

你有没有向你的RAG系统问过一个具体问题,却得到一个令人沮丧的模糊答案? 你并不孤单。 以下是一个巧妙的改进方法如何改变游戏规则。
6/10/2025 2:44:00 AM
AI研究生

智能体式推理与工具集成:ARTIST 基于强化学习的新思路

大家好,我是肆〇柒。 这两天,我看到一篇论文《Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning》讲述的是ARTIST 框架,为 LLM 赋予智能体式推理与工具集成的全新维度。 今天,就一起了解一下这个 ARTIST 框架,看看 LLM 如何借助强化学习突破局限,开启智能体式推理与工具集成。
6/10/2025 2:30:00 AM
肆零柒

AI疯狂进化6个月,一张天梯图全浓缩!30+模型混战,大神演讲爆火

半年之期已到,AI龙王归位! (AI卷成啥样了? )就在刚刚,AI圈大神Simon Willison在旧金山AI工程师世博会(AI Engineer World’s Fair)上带来爆笑又干货满满的主题演讲:「过去六个月中的LLM——由骑自行车的鹈鹕来解释」。
6/10/2025 2:10:00 AM

一文讲清楚大模型中六个关键词及原理:LLM、Transformer、Bert、预训练、微调FineTuning、机器学习

什么是大模型,相信每个人都能说上一个一二三点来。 比如:OpenAI、ChatGPT、DeepSeek、豆包、Manus等。 也知道大模型需要做训练与推理。
6/10/2025 1:00:00 AM
Zack之云原生

AI成为企业勒索软件防御的关键角色

支付赎金并不总是能带来预期的结果,约四分之一支付赎金的受访者表示,他们没有拿回所有数据,在英国这一比例上升到了三分之一,即使他们拿回了数据,对手仍可能会尝试将其变现。 “勒索软件已经演变成一种形态多变、AI驱动的威胁,任何企业都不能掉以轻心,”Delinea的CEO Art . Gilliland表示,“为了应对当今攻击的复杂性,企业必须利用AI对抗AI,并采取主动的身份安全策略,如零信任架构、特权访问管理和持续的凭证监控,以保持领先。
6/10/2025 12:20:00 AM
D1net编译