资讯列表
ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者
本文第一作者为韩沛煊,本科毕业于清华大学计算机系,现为伊利诺伊大学香槟分校(UIUC)计算与数据科学学院一年级博士生,接受 Jiaxuan You 教授指导。 其主要研究方向为:大语言模型的安全性及其在复杂场景中的推理。 说服,是影响他人信念、态度甚至行为的过程,广泛存在于人类社会之中。
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的内存区域中。
华科开源MonkeyOCR:3B小模型,居然把GPT-4o给比下去了
看到这个标题,你可能会想"又一个号称吊打GPT的模型"。 但这次不一样,华中科技大学真的搞出了点名堂。 前几天,华科和金山办公联合开源了一个叫MonkeyOCR的文档解析模型。
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术,这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大功能,为用户带来逼真的虚拟交互体验。 它是如何实现的呢? 本文将为您揭秘 TaoAvatar 背后的黑科技!
谷歌发布本地具身智能模型!全程无联网执行精细操作,从人形机器人到工业机器人全覆盖
机器人终于有了自己的“离线大脑”。 Google DeepMind团队首个可以完全在机器人本地运行的视觉-语言-动作(VLA)模型Gemini Robotics On-Device发布。 这个模型不仅能离线运行,还保持了相当强悍的操作能力,能遵循指令完成各种需要精细操作的任务。
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
你对着家里的机器人说:“去厨房,看看冰箱里还有没有牛奶。 ”它不仅准确走到了厨房,还在移动过程中避开了椅子,转身打开冰箱,并回答你:“还有半瓶。 ”这不是遥远的科幻,而是视觉语言导航技术的下一站。
加州法院裁定使用版权内容训练 AI 合规,引发创作者担忧
美国加州北区地方法院作出了一项重要裁决,允许使用受版权保护的作品来训练人工智能模型。 这个决定引发了广泛的关注和争议,尤其是在创意产业中,许多艺术家和内容创作者对此表示担忧。 裁决支持了被告 Anthropic 公司在没有授权的情况下使用盗版材料来训练其 AI 模型 Claude,进一步引发了关于创作者权益的讨论。
联邦法官首次裁定AI训练使用版权书籍属合理使用,Anthropic获胜但仍面临盗版指控
在一项具有里程碑意义的裁决中,联邦法官威廉·阿尔苏普(William Alsup)裁定,Anthropic公司在未经作者许可的情况下使用已出版书籍训练其人工智能模型属于合法行为。 这是法院首次认可AI公司关于合理使用原则的辩护论点,为科技行业在版权争议中奠定了重要先例。 行业影响深远这一判决对正在进行的AI版权大战产生重大影响。
讯飞星火医疗大模型 V2. 国际版发布,超越人类医生的实用性!
科大讯飞正式推出了星火医疗大 V2.5国际版,标志着医疗人工智能领域的一次重要突破。 这款模型是业界唯一基于全国产算力训练的医疗大模型,显示出中国在这一领域的领先地位。 根据权威评测平台 MedBench 的最新排名,星火医疗大模型以98.4分的优异成绩位列综合能力榜首,显示出其卓越的性能。
苹果iOS 26升级:图乐园功能焕然一新,AI 生成图像更真实!
近日,科技媒体 MacRumors 披露了苹果即将推出的 iOS26系统中的新特性,特别是增强版图乐园(Image Playground)。 此次更新不仅让图像生成效果更自然,更加入了 ChatGPT 的强大功能,使得用户体验得到显著提升。 iOS26的图乐园功能最早在 iOS18中引入,用户可以通过输入简短的描述,生成各种风格的图像。
全新办公助手来袭!Grok 即将推出支持电子表格的智能编辑器
最近,xAI宣布正在开发一款新型的文件编辑器,旨在通过集成文本和电子表格功能来进一步提升工作效率。 这款编辑器将与 Grok 进行深度互动,预计将极大简化用户的日常工作流程。 早前推出的 Grok Studio 已经为用户提供了分屏工作空间和文件整理等实用功能,受到了不少用户的喜爱。
ElevenLabs 推出移动应用,免费用户享10分钟文本转语音额度
在人工智能领域,ElevenLabs 又迈出了重要一步,正式推出其独立的移动应用,支持 iOS 和 Android 用户随时随地生成语音片段。 此前,用户仅能通过网页应用利用 ElevenLabs 的 AI 语音库,现在,这款移动应用让语音合成变得更加便捷。 用户在应用中只需输入或粘贴文本,然后选择适合的语音模型,就可以生成音频片段。
ICML 2025 | 生成式视角重塑监督学习!标签不只是答案,更是学习指南
生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
Thinking模式当道,教师模型也该学会“启发式”教学了——由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI,带着他们的新方法来了! 这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。 用Sanaka AI的新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效。
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
尽管如GPT-4和Gemini等基础模型已在通用语言理解方面设立了新的行业标杆 ,但它们在需要深度领域知识的专业领域中,其表现常常不尽如人意。 当面临数学、医学、法律及金融等专门任务时,这些模型时常表现不佳,因为这些领域高度依赖特定的专业知识。 传统上,为了让这些模型适应特定领域,最直接的方法是使用大规模的人类标注数据进行微调。
AI 语音公司 ElevenLabs 推出独立移动应用:免费用户享 10 分钟文本转语音额度
语音AI公司ElevenLabs推出独立移动应用,支持iOS和Android用户随时随地生成语音片段。免费套餐提供10分钟音频生成时间,并支持情感表达控制。#AI语音##科技前沿#
美国加州法院裁定:使用版权内容训练 AI 属合法行为
科技媒体 AppleInsider 昨日(6 月 24 日)发布博文,报道称美国加州北区地方法院的裁决允许使用受版权保护的作品来训练人工智能模型,这一决定对创意产业构成了极大威胁。该裁决支持被告 Anthropic 公司使用盗版材料训练其 AI 模型,引发创作者权益争议。
为什么你的 AI 数据战略应该包含 MCP
随着代理系统变得越来越复杂,企业能力在这些系统中作为工具出现,建立明确且一致的规则对于自主工作流程的成功至关重要。 模型上下文协议 (MCP) 为代理、LLM 和企业系统提供通用语言。 将 MCP 纳入 AI 数据战略的企业将能够构建新功能,确保信任和可审计性,并适应快速发展的创新。