AI
ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者
本文第一作者为韩沛煊,本科毕业于清华大学计算机系,现为伊利诺伊大学香槟分校(UIUC)计算与数据科学学院一年级博士生,接受 Jiaxuan You 教授指导。 其主要研究方向为:大语言模型的安全性及其在复杂场景中的推理。 说服,是影响他人信念、态度甚至行为的过程,广泛存在于人类社会之中。
6/25/2025 9:19:44 AM
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的内存区域中。
6/25/2025 9:15:38 AM
ICML 2025 | 生成式视角重塑监督学习!标签不只是答案,更是学习指南
生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。
6/25/2025 8:59:49 AM
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
Thinking模式当道,教师模型也该学会“启发式”教学了——由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI,带着他们的新方法来了! 这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。 用Sanaka AI的新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效。
6/25/2025 8:54:03 AM
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
尽管如GPT-4和Gemini等基础模型已在通用语言理解方面设立了新的行业标杆 ,但它们在需要深度领域知识的专业领域中,其表现常常不尽如人意。 当面临数学、医学、法律及金融等专门任务时,这些模型时常表现不佳,因为这些领域高度依赖特定的专业知识。 传统上,为了让这些模型适应特定领域,最直接的方法是使用大规模的人类标注数据进行微调。
6/25/2025 8:53:00 AM
美国加州法院裁定:使用版权内容训练 AI 属合法行为
科技媒体 AppleInsider 昨日(6 月 24 日)发布博文,报道称美国加州北区地方法院的裁决允许使用受版权保护的作品来训练人工智能模型,这一决定对创意产业构成了极大威胁。该裁决支持被告 Anthropic 公司使用盗版材料训练其 AI 模型,引发创作者权益争议。
6/25/2025 7:09:58 AM
故渊
为什么你的 AI 数据战略应该包含 MCP
随着代理系统变得越来越复杂,企业能力在这些系统中作为工具出现,建立明确且一致的规则对于自主工作流程的成功至关重要。 模型上下文协议 (MCP) 为代理、LLM 和企业系统提供通用语言。 将 MCP 纳入 AI 数据战略的企业将能够构建新功能,确保信任和可审计性,并适应快速发展的创新。
6/25/2025 2:30:00 AM
晓晓
无训练智能体蒸馏:AgentDistill 低成本高能效的智能进化方案
大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)的蒸馏技术正以前所未有的速度发展,成为压缩模型规模、降低推理成本的关键手段。 然而,现有的 LLM 智能体蒸馏方法却面临着高计算成本、泛化能力不足等诸多挑战。
6/25/2025 1:00:00 AM
肆零柒
马斯克 xAI 被曝为 Grok 开发高级文件编辑器,支持 AI 处理电子表格
逆向工程师 Nima Owji 于 6 月 22 日在 X 平台发布推文,称埃隆・马斯克(Elon Musk)旗下的 xAI 公司正为 Grok,开发一款支持表格的高级文件编辑器。
6/24/2025 3:31:24 PM
故渊
史上最高种子轮花落AI:20亿美元断档领先,苹果Meta抢着都投不进,扎克伯格转头挖联创也遭拒
AI圈融资收购挖人大战,乱成一锅粥了! 最新消息,OpenAI前CTO创办的Thinking Machines完成20亿美元种子轮融资,不仅刷新了AI领域的融资纪录,也成为有史以来规模最大的种子轮融资。 最初,市场传闻该公司的融资目标约为10亿美元,在短短数月内目标金额翻倍。
6/24/2025 3:17:02 PM
调查显示大多数用户曾对 AI 聊天机器人爆粗口,但也会说谢谢
研究显示,近70%用户曾对AI客服爆粗口,但75%仍对互动表示满意。67%美国人和71%英国人会对AI说“请”“谢谢”,甚至道歉。有趣的是,移除礼貌用语后AI回答质量下降。#AI客服##人机交互#
6/24/2025 3:05:51 PM
远洋
任务太难,连ChatGPT都弃了!最强AI神器一键拆解,首测来袭
想转型AI做产品经理,却不知如何入手? 想搞副业月入一万,但脑子里只有零散想法? 想知道AI时代该学什么专业最有前景?
6/24/2025 1:54:22 PM
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍
现在的大模型基本都具备零样本泛化能力,但要在真实场景中做特定的适配,还是得花好几个小时来对模型进行微调。 即便是像LoRA这样的参数高效方法,也只能缓解而不能消除每个任务所需的微调成本。 刚刚,包括尤洋教授在内的来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员,提出了一种全新的「拖拽式大语言模型」——Drag-and-Drop LLMs!
6/24/2025 1:52:38 PM
别做 ChatGPT 竞品!Sam Altman 给 AI 企业划“禁区”:这块我们有“护城河”
在Y Combinator 最近在旧金山举办的 AI Startup School 活动中,OpenAI CEO Sam Altman 接受了Garry Tan的采访。 他在台上说:“别去做我们要做的那个 ChatGPT。 ”图片Altman 没有拐弯抹角,清楚说出:“我们要做的事情,就是把 ChatGPT 打造成最好的超级助理。
6/24/2025 1:50:20 PM
文摘菌
OpenAI硬件陷“抄袭门”,商标/设计极其相似,官方火速删帖
才官宣1个月,奥特曼未出世的AI硬件,已陷入“抄袭门”。 最新消息,OpenAI斥64亿美金收购的AI硬件公司IO,因商标、产品设计侵权等问题,被告上法庭。 原告是IYO,2021年从Google X孵化成立,主营下一代“无屏幕语音计算设备”。
6/24/2025 11:49:20 AM
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。 「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011)在思维节奏这件事上,人类早已形成一种独特而复杂的模式。 我们习惯让 AI 模仿人类思维方式:先依赖直觉快速反应(System 1),再慢慢进入逻辑推理(System 2);答题时先给出初步判断,再自我反思逐步修正……模仿人类的推理节奏,已经成为语言模型推理策略的默认路径。
6/24/2025 9:05:00 AM
28岁辍学生掌舵Meta超级AI!小扎掷千亿,与奥特曼密谋,新「王」登顶
19岁MIT辍学,24岁白手起家的亿万富翁,扎克伯格为他豪掷143亿美元,28岁掌管Meta新设立的「超级智能」部门。 这些标签哪一个都足够让人侧目,但汇聚在Alexandr Wang身上,却只是他AI「登月计划」的起点。 最近,这位Scale AI创始人宣布辞去CEO职位,正式加盟Meta,挑起打造超越人类智能AI的重任。
6/24/2025 9:04:21 AM
哈佛重磅预警!经济学家预言:全球AI失业潮2年来袭,世界经济大崩盘在即
AI接管全员工作,这个话题彻底火了。 甚至连哈佛商学院都做了一个Youtube视频,预警如果AI接管人类的所有工作时,将会发生什么。 在访谈中,弗吉尼亚大学经济学教授、领先的AI经济学家 Anton Korinek揭示了为何AGI可能在短短2-5年内实现。
6/24/2025 9:01:57 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
芯片
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
具身智能
大语言模型
生成
百度
Sora
GPU
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
生成式AI
架构
DeepMind
亚马逊
特斯拉
编程
AI模型
视觉
Transformer
预测
MCP