资讯列表
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。 然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
6/10/2025 9:07:00 AM
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好? 这正是西湖大学研究团队在最新论文中提出的核心思想。 他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每个输入 prompt 本身当作一份「迷你训练数据」,让模型在生成答案前先「学习」理解这个具体问题。
6/10/2025 9:05:00 AM
大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制
大模型≠随机鹦鹉! Nature子刊最新研究证明:大模型内部存在着类似人类对现实世界概念的理解。 LLM能理解现实世界和各种抽象概念吗?
6/10/2025 9:04:00 AM
苹果 WWDC 2025:iOS 26升级视觉智能,AI 助力屏幕内容识别
苹果全球开发者大会(WWDC2025)在 Apple Park 隆重召开。 此次大会上,苹果公司重磅发布了 iOS26系统的全新功能,带来了视觉智能(Visual Intelligence)的重大升级。 这一功能将为用户在日常操作中提供更为便捷和智能的体验,改变我们与手机互动的方式。
6/10/2025 9:00:56 AM
AI在线
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
在2025年WWDC大会上,苹果公司宣布向开发者社区开放其人工智能技术,推出Foundation Models框架和升级版Xcode26,标志着苹果在AI开发工具领域的重大突破。 Foundation Models框架:隐私至上的AI集成方案苹果全新的Foundation Models框架为开发者提供了一套集中化工具,可将苹果自研AI模型直接嵌入应用程序。 该框架最大的亮点在于完全在设备本地运行,无需任何云端连接,既保障了用户隐私,又为开发者提供免费使用权限。
6/10/2025 9:00:56 AM
AI在线
亚马逊投资 200 亿美元扩建宾州数据中心,加速 AI 云服务布局
近日,亚马逊公司宣布了一项重磅投资计划,计划在美国宾夕法尼亚州投入至少200亿美元,以扩建其数据中心基础设施。 这一举措不仅是亚马逊在人工智能领域持续投入的延续,更是其对未来技术发展的前瞻性布局。 亚马逊的投资背景与行业趋势密切相关。
6/10/2025 9:00:56 AM
AI在线
ChatGPT业绩狂飙,年收入首次突破百亿大关!
在短短三年的时间里,美国人工智能研究公司 OpenAI 凭借其热门聊天机器人 ChatGPT,实现了令人瞩目的业绩,年化经常性收入(ARR)已突破100亿美元大关。 根据最新数据显示,OpenAI 的 ARR 去年为约55亿美元,这意味着今年增长近80%。 这样的飞速发展让人不禁感叹,人工智能市场的潜力实在不可小觑。
6/10/2025 9:00:56 AM
AI在线
破解自驾数据难题!毫米波雷达可控仿真技术新框架来了
以神经网络为核心引擎,让AI承担雷达仿真数据生成任务,还实现对雷达物理特性的建模与控制——这就是光轮智能联合清华AIR、LeddarTech等机构提出的全新自动驾驶神经渲染框架SA-Radar。 在无需雷达具体细节的情况下,它能实现可控且逼真的雷达仿真,支持场景的灵活编辑——包括雷达属性修改、演员移除以及新视角合成,并能显著增强多种下游任务。 作为高级驾驶辅助系统(ADAS)中扮演着至关重要角色的雷达,其相关研究和开发仍面临数据获取的挑战。
6/10/2025 8:45:00 AM
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
因为眼睛受伤暂时失去立体视觉,李飞飞更加坚定了做世界模型的决心。 在a16z的最新播客节目中,“AI教母”李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历:尽管凭借多年经验能想象出三维世界,但一只眼睛看东西时,我开始害怕开车。 但作为一名科学家,她也把这次经历当成一次宝贵的“实验”机会。
6/10/2025 8:43:00 AM
生成式 AI 在 B 端软件中实践的思考
我一直认为 C 端软件和 AI 的结合会更顺畅一些,例如,笔记工具“墨问”最近推出了 MCP 功能,允许我在各种客户端中与 AI 交互,并将结果通过 MCP 保存至其中。 这是因为大部分情况下,C 端对准确性的容忍度更高。 B 端软件则不同,其对准确性要求极高,尤其在金融、医疗等行业。
6/10/2025 8:34:47 AM
七种方式让你的AI编码结果更靠谱
译者 | 核子可乐审校 | 重楼企业在积极引入AI的同时,也希望雇用更多工程师,期望开发者能够借AI之力将产出“提升10倍”。 但要真正高效运用AI编码助手,其中也有不少门道。 首先是AI编码助手的固有局限,其存在大量不确定性,因此容易引发种种难以避免的意外行为,例如随机删除代码或引入逻辑错误。
6/10/2025 8:30:50 AM
核子可乐
人工智能驱动的智能合约:自动化决策的未来
译者 | 晶颜审校 | 重楼引言在实践中,诸多主体常受制于低效且易出错的传统合同流程。 当交易因文书工作疏漏或人为失误而停滞时,往往会引发效率损耗与操作困境。 而人工智能驱动的智能合约正为这一领域带来革新力量。
6/10/2025 8:26:00 AM
晶颜
大厂实践: LLM 加速大规模测试迁移
Airbnb最近完成了第一次由 LLM 驱动的大规模代码迁移,将 3500 个测试文件从 Enzyme 更新为 React测试库(RTL,React Testing Library)。 最初我们估计这需要 1 年半的时间来手工完成,但通过使用前沿模型和强大的自动化组合,我们在 6 周内完成了整个迁移。 本文将重点介绍从 Enzyme 迁移到 RTL 所面临的独特挑战,如何通过 LLM 解决这些挑战,以及如何构建迁移工具来执行 LLM 驱动的大规模迁移。
6/10/2025 8:15:00 AM
俞凡 DeepNoMind
我如何仅用 0.80 美元使用 Cursor 构建 17,000 行代码库
市面上出现过不少工具来来去去,但 Cursor 搭配 Claude Sonnet 4 这组合,绝对称得上革命性。 三小时内,仅在 /lib 目录,就生成了超过 17,000 行代码,花费却不到一美元。 要么 Cursor 在赔钱运营,就像我叔叔烤火鸡烤焦那样惨烈,要么我找到了一个让 AI 编码极度低价的秘密。
6/10/2025 8:10:59 AM
前端小智
AI驱动型企业数据治理的三大关键支柱
数据治理已从合规必要性转变为AI驱动型企业的战略支柱。 随着数据量在云端、边缘和混合环境中激增,围绕静态策略和定期审计构建的传统治理模式正日益失效。 AI和自动化要求治理框架能够实时运行,动态适应监管要求、安全威胁和业务需求。
6/10/2025 7:11:00 AM
Yash Mehta
如何解决导致GenAI程序沉没的两个问题
在GenAI时代,发展轨迹呈现出典型的“进两步,退一步”模式。 随着公司逐渐掌握GenAI的独特复杂性,初期取得的进展往往伴随着倒退和重复工作,在某些情况下,甚至可能威胁到整个开发进程的停滞。 导致挫败感和延误的原因众多,从人才短缺到持续的数据质量问题不一而足,但根据我们过去两年与超过150家公司合作开展GenAI项目的经验来看,在构建过程中几乎总会遇到两个主要障碍:• 创新失败:流程限制、缺乏专注以及重复性的返工扼杀了创新。
6/10/2025 7:09:00 AM
Curt Jacobsen
小红书Hi Lab提出DeepEyes,探索O3「Thinking with Images」能力
OpenAI 的 o3 首次将图像直接注入推理过程,打破了传统文字思维链的边界,成为多模态推理新的里程碑。 但是如何赋予模型这一能力,目前不得而知。 因此,小红书联合西安交通大学,采用端到端强化学习,在完全不依赖监督微调(SFT)的前提下,激发了大模型“以图深思”的潜能,构建出多模态深度思考模型 DeepEyes,首次实现了与 o3 类似的用图像进行思考的能力,并已同步开源相关技术细节,让“用图像思考”不再是 OpenAI 专属。
6/10/2025 5:00:00 AM
RAG系列:切分优化 - 基于 Markdown 语法的文档切分
引言在RAG系列:解析优化 - 不同文件类型统一转换成Markdown一文中我们介绍了将不同文件类型统一解析转换成 Markdown 文件的好处。 本文我们接着这篇文章解析转换后的 Markdown 文件,介绍下基于 Markdown 语法的文档切分方法。 关于指标在RAG系列:系统评估 - 五个主流评估指标详解一文中我们介绍了评估 RAG 系统的五个主流指标,从本文开始,我会根据不同优化阶段来选择要重点关注的指标,不必要每次都关注五个指标的表现,这样可以让我们的优化更聚焦,通过优化每个阶段的重点指标,从而逐步优化系统的各个环节。
6/10/2025 4:30:00 AM
燃哥讲AI