资讯列表
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust
MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。 该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。 此外,MLA-Trust 提供了高度模块化且可扩展的评估工具箱,旨在为多样化交互环境中 MLAs 的持续性可信度评估提供技术支撑。
7/4/2025 4:50:07 PM
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个
前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。 要是哪个 AI 能一键分析表格,我当场就能给它磕一个。 现在,终于有 AI 来整顿 Excel 表格了!
7/4/2025 4:47:35 PM
Agent RL和智能体自我进化的关键一步:TaskCraft实现复杂智能体任务的自动生成
近年来,基于智能体的强化学习(Agent RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。 然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。 当前如 GAIA 与 BrowserComp 等主流数据集在构建过程中高度依赖人工标注,因而在规模与任务复杂性方面均存在明显限制——BrowserComp 仅涵盖约 1300 个搜索任务,GAIA 则仅提供约 500 条多工具协同任务样本。
7/4/2025 4:46:57 PM
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源
AI,到处都是AI! 早上起来,脑子里突然萦绕起一个旋律,于是便对着AI随便哼了几句让它找出来是哪首歌;到公司之后,打开电脑里的AI,开始准备关于昨天工作的汇报。 只见你熟练地敲入:「根据以下这些文档,写一份总结,要专业、有逻辑、内容简洁」。
7/4/2025 4:45:24 PM
MIT自主科学发现系统SPARKS:已独立发现两条全新蛋白质设计法则
编辑 | 萝卜皮人工智能(AI)的进步有望实现自主科学发现,但大多数系统仍在重复训练数据中潜藏的知识。 几个月前,麻省理工学院(MIT)的 Markus J. Buehler 和 Alireza Ghafarollahi 推出了自主科学发现模型 SPARKS。
7/4/2025 4:40:00 PM
ScienceAI
Ilya尘封10年录音曝光!大二入Hinton门下,竟坦言机器学习反直觉
Ilya Sutskever因在深度学习方面的远见卓识而闻名。 他现在许多广为流传的言论其实都来自于他在2023年参加Dwarkesh播客时的发言。 此后,直到2025年Ilya创办SSI后,几乎不再有公开的言论,此前曾探讨过Ilya的去向。
7/4/2025 4:39:56 PM
百万年薪遍地走,Meta薪资接连曝光!AI人才身价水涨船高ing
20000000美金,码农身价堪比NBA球星? 就在小扎顶配高薪挖人之际,Meta各岗位薪资被接连曝出。 先是一份联邦文件曝光,将Meta包括AI研究科学家、软件工程师、产品经理等在内的岗位基本工资一次性大揭底。
7/4/2025 4:37:50 PM
硅谷的企业级AI正在这样赚钱|2025人工智能现状报告
企业级AI开发现状如何? 各企业在使用AI的战略上有什么变化? AI公司应该作出什么样的调整来应对挑战?
7/4/2025 4:34:43 PM
14%论文都有AI代写?Nature:每7篇就有1篇藏有ChatGPT特征词
这些词可能会偷偷暴露你的论文是AI帮忙写的,一年之内14%使用LLM的生物医学论文就是这样被发现滴……据Nature最新报道,研究发现在2024年PubMed上发表的150万篇生物医学研究摘要中,其中超过20万篇都频繁出现LLM特征词。 这些词汇大多都是多余的风格性动词和形容词,只改变了文体,并不影响内容。 在部分国家和学科中,AI辅助写作的比例也已经超过五分之一,而这一趋势还在不断上升。
7/4/2025 3:58:39 PM
鹭羽
智能体商业化打通最后一公里,腾讯元器宣布接入微信支付MCP
7月3日,腾讯元器宣布正式接入微信支付MCP,支持开发者在智能体上直接增加下单、赞赏、查询订单等功能,打通智能体商业化的最后一公里。 微信支付MCP是微信支付团队为AI智能体生态打造的支付解决方案,具有安全、便捷、可靠等多重特点,腾讯元器作为首个接入微信支付MCP的智能体开发平台,将凭借腾讯生态的优势连接能力,为智能体的开发带来更多丰富的体验。 基于腾讯元器平台的智能体开发能力,开发者仅通过简单的提示词调用或工作流编排,即可快速接入微信支付MCP,让智能体拥有支付的能力。
7/4/2025 3:53:55 PM
鹭羽
拣货最快秒级,京东物流智狼机器人进入全国规模化复制与应用阶段
京东物流自主研发的智狼货到人系统已进入全国规模化复制与应用阶段,在北京、福州、广州、成都等多个核心城市落地部署,大幅提升仓内作业效率,最快秒级完成拣货。#京东物流# #智能仓储#
7/4/2025 3:37:27 PM
浩渺
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
DeepSeek R1横空出世第128天,已经把整个大模型市场搅得天翻地覆! 首先,它以一己之力把推理模型的价格打下来,OpenAI六月更新的o3价格相比o1直接打了2折。 其次,第三方平台托管的DeepSeek模型使用量疯狂增长,比刚发布时涨了将近20倍,成就了大批云计算厂商。
7/4/2025 3:34:24 PM
梦晨
Meta 薪资接连曝光:百万年薪遍地走,AI 人才身价水涨船高
超级智能 ML 工程师岗位,一年基本薪资 35 万美金(约合人民币 251 万元),四年总包 20000000 美金(约合人民币 1.4 亿)。
7/4/2025 2:56:22 PM
清源
英伟达加冕历史第一股!老黄最新身家1388亿美元
3.92万亿美元市值,刷新全球历史纪录,来自AI芯片霸主——. 英伟达。 LSEG数据指出,这一数字超过了加拿大 墨西哥股市的总市值之和,也超过英国所有上市公司总市值。
7/4/2025 2:35:25 PM
西风
ChatGPT 应用新特性:类 Operator 智能体,AI 实现点击、拖拽等操作
科技媒体 bleepingcomputer 昨日(7 月 3 日)发布博文,报道称在网页版和安卓版 ChatGPT 应用中,发现了新的测试代码,暗示其将引入类似 Operator 的工具。
7/4/2025 2:28:04 PM
故渊
开源大佬炮轰MCP:我不是MCP的忠实拥趸!MCP是一个死胡同!根本不是为无推理自动化而设计的!绕开MCP,试试代码生成的世界
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)今天凌晨,知名开源 Web 框架作者 Ronacher 发表了一篇引起热烈反响的博客。 虽然他自谦地在X上称这篇“烂文章”,但网友们却非常认同。 图片这篇文章标题为:《Tools:Code is all your need》。
7/4/2025 12:35:32 PM
云昭
科学家Ilya不想当CEO,都是扎克伯格逼的
克雷西 发自 凹非寺. 量子位 | 公众号 QbitAIIlya,被迫当公司CEO了。 是的,即便两次改变了AI、改变了世界,但Ilya一直是研究员、首席科学家…而这一次,不得不当自己创办公司的CEO。
7/4/2025 10:06:34 AM
克雷西
LeCun团队揭示LLM语义压缩本质:统计压缩牺牲细节
当我们读到“苹果”“香蕉”“西瓜”这些词,虽然颜色不同、形状不同、味道也不同,但仍会下意识地归为“水果”。 哪怕是第一次见到“火龙果”这个词,也能凭借语义线索判断它大概也是一种水果。 这种能力被称为语义压缩,它让我们能够高效地组织知识、迅速地对世界进行分类。
7/4/2025 9:53:57 AM