AI在线 AI在线

AI

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。 要是哪个 AI 能一键分析表格,我当场就能给它磕一个。 现在,终于有 AI 来整顿 Excel 表格了!
7/4/2025 4:47:35 PM

Agent RL和智能体自我进化的关键一步:TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。 然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。 当前如 GAIA 与 BrowserComp 等主流数据集在构建过程中高度依赖人工标注,因而在规模与任务复杂性方面均存在明显限制——BrowserComp 仅涵盖约 1300 个搜索任务,GAIA 则仅提供约 500 条多工具协同任务样本。
7/4/2025 4:46:57 PM

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

AI,到处都是AI! 早上起来,脑子里突然萦绕起一个旋律,于是便对着AI随便哼了几句让它找出来是哪首歌;到公司之后,打开电脑里的AI,开始准备关于昨天工作的汇报。 只见你熟练地敲入:「根据以下这些文档,写一份总结,要专业、有逻辑、内容简洁」。
7/4/2025 4:45:24 PM

Ilya尘封10年录音曝光!大二入Hinton门下,竟坦言机器学习反直觉

Ilya Sutskever因在深度学习方面的远见卓识而闻名。 他现在许多广为流传的言论其实都来自于他在2023年参加Dwarkesh播客时的发言。 此后,直到2025年Ilya创办SSI后,几乎不再有公开的言论,此前曾探讨过Ilya的去向。
7/4/2025 4:39:56 PM

百万年薪遍地走,Meta薪资接连曝光!AI人才身价水涨船高ing

20000000美金,码农身价堪比NBA球星? 就在小扎顶配高薪挖人之际,Meta各岗位薪资被接连曝出。 先是一份联邦文件曝光,将Meta包括AI研究科学家、软件工程师、产品经理等在内的岗位基本工资一次性大揭底。
7/4/2025 4:37:50 PM

硅谷的企业级AI正在这样赚钱|2025人工智能现状报告

企业级AI开发现状如何? 各企业在使用AI的战略上有什么变化? AI公司应该作出什么样的调整来应对挑战?
7/4/2025 4:34:43 PM

ChatGPT 应用新特性:类 Operator 智能体,AI 实现点击、拖拽等操作

科技媒体 bleepingcomputer 昨日(7 月 3 日)发布博文,报道称在网页版和安卓版 ChatGPT 应用中,发现了新的测试代码,暗示其将引入类似 Operator 的工具。
7/4/2025 2:28:04 PM
故渊

AI代码工具大地震:Anthropic核心创始人集体"叛逃"Cursor背后的惊天内幕

昨天在Twitter上看到一条消息,差点让我手中的咖啡洒出来——Claude Code的创始人@bcherny和@_catwu离开了Anthropic,加入了Cursor AI。 这感觉就像是你精心培养的孩子,突然跑到隔壁邻居家说"爸爸,我要跟着他们混了"。 作为一个天天和各种AI编程工具打交道的开发者,我深知这件事背后的分量。
7/4/2025 9:21:50 AM
阿丸笔记

刚刚,Ilya Sutskever宣布自任CEO:联创被Meta挖走了

Meta 的挖掘机,终于挖到了 Ilya 大神的头上。 周五凌晨,OpenAI 联合创始人 Ilya Sutskever(伊尔亚・苏茨克维)久违地在社交媒体发声。 我向我们的团队和投资者发送了以下信息:正如你们所知,Daniel Gross 在我们公司的时间已接近尾声,自 6 月 29 日起,他已正式退出 Safe .
7/4/2025 9:14:10 AM
机器之心

开源DeepSeek R1增强版:推理效率快200%,创新AoE架构

德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。 Chimera是基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成,同时采用了一种全新的AoE架构。 这种架构在提升性能的同时,还能加快模型的推理效率并节省token输出。
7/4/2025 9:08:00 AM

首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。 研究方向主要是:具身智能 VLA 模型,世界模型。 阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。
7/4/2025 9:07:00 AM

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

今年上半年,随着DeepSeek R1的发布,国内大模型的应用迎来井喷式的发展,各种大模型的信息满天飞,连普通消费者都多多少少被大模型一体机给安利了,特别是满血版的DeepSeek 671B。 然而理性地来讲,671B模型的部署成本动辄百万起步,远超一般企业的IT预算。 同时,我们对大模型的使用与功能挖掘还停留在初期阶段,特别是在后千模大战的时代,32B/70B等中档模型已经可以满足许多企业的需求。
7/4/2025 9:06:00 AM

图灵奖大佬向97年小孩哥汇报?小扎1亿年薪买新贵,老将痛诉熬夜捡GPU!

起猛了,看到LeCun给Alexandr Wang汇报了! 一个是图灵三巨头、多年学术泰斗,一个是靠着数据标注成功晋身亿万富翁的97年小孩哥,这个画面,实在是过于魔幻了。 为了Wang,小扎砸下了足足143亿美元,拿下整个Scale AI 49%股权。
7/4/2025 9:06:00 AM

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

最近「上下文工程」有多火? Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。 之前我们介绍了上下文工程的基本概念,今天我们来聊聊实操。
7/4/2025 9:05:00 AM

AI 编程十字路口:为什么说 Copilot 模式是创业陷阱?

「大模型的发展,更像一场篮球比赛才刚刚打完第一节。 所有人都在用第一节的比分去判断整场比赛的胜负,但我们认为,还有第二、三、四节要打。 」蔻町智能(AIGCode)创始人兼 CEO 宿文用这样一个比喻,为当前略显拥挤的 AI 编程赛道,提供了一个不同的观察视角。
7/4/2025 9:02:00 AM

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

在AI迈入多模态时代的当下,“让大模型上手机”成为产业落地的焦点。 现有MLLM在手机端部署时常面临两大难题:1、纯语言任务性能下降:现有的端侧MLLM在纯文本的任务上表现不尽人意;2、手机NPU不支持MoE架构:而MoE架构恰恰是多模态训练中保持语言能力的常用手段(比如CogVLM,Wings)。 vivo AI研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。
7/4/2025 9:00:00 AM

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

本文第一作者为上海交通大学计算机科学四年级博士生万梓煜,主要研究方向为强化学习、基础模型的复杂推理,通讯作者为上海交通大学人工智能学院温颖副教授和上海人工智能实验室胡舒悦老师。 团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授,伦敦大学学院的宋研、杨林易和汪军教授,上海交通大学的温潇雨,王翰竟和张伟楠教授。 引言最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model ) PPO,③ 可验证奖励 (Verifiable Reward) GRPO(DeepSeek R1)。
7/4/2025 8:53:00 AM

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。 为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。 该方法借鉴人类“多角度思考、反复验证”的认知方式,打破传统LLM的线性推理范式,通过构建多棵并行推理树,引入动态自我修正机制与多视角共识决策策略。
7/4/2025 8:53:00 AM