数据
AI 成本直降 90%!女股神 Cathie Wood 圈定 3 条迁徙线:Robotaxi、端侧大模型、AI 医药
(视频来源:对话ARK Invest创始人Cathie Wood)北京时间 6 月 5 日,在《The Diary of a CEO》最新一期节目中,ARK Invest 创始人、掌管 300 亿美元资产的‘女股神’ Cathie Wood(凯茜·伍德),用三组数据划出 AI 落地的爆发路径:训练侧:过去两年,GPT-3 级别模型的训练成本从 460 万美元跌到 45 万美元,年降幅约 70%,堪称“断崖式”跳水;应用侧:ARK 测算 Robotaxi 单英里成本可低至 0.25 美元,比现有网约车便宜近 90%;消费侧:AI 代理激发的新消费行为,2030 年线上支出或达 9 万亿美元,改写全球最大产业链的资金流。 在同一天,特朗普在 Truth Social 威胁“取消特斯拉全部政府合同”,引发政商关系骤然紧张。 但 Cathie Wood 的判断更冷静、更本质:“Robotaxi 的成败,关键不是谁在互呛,而是成本模型能不能跑通。
6/9/2025 5:32:09 PM
ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),实现超长文本的高效上下文建模。 在 128K 超长序列上下文建模任务中,CCA-Attention 的推理速度是标准自注意力机制的 7.9 倍,同时键值缓存(KV Cache)显存占用减少 93%,性能全面优于现有高效注意力方法。 论文标题:Core Context Aware Transformers for Long Context Language Modeling论文链接:::2024年12月17日该成果已被 ICML 2025 接收,最早于 2024 年 12 月 17 日提交至 ArXiv,早于 DeepSeek NSA 和 Kimi MoBA 公开。
6/9/2025 9:23:05 AM
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
LLM苦算力太久了! 为缓解长序列建模中的算力瓶颈,研究界持续探索高效替代方案。 这次Mamba作者Tri Dao、华人AI领域大牛Eric P.
6/9/2025 9:05:00 AM
八个数据集全面胜出!思维链推理刷新图学习表现上限
思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了GCoT——首个应用于无文本图数据的类思维链提示学习框架。
6/9/2025 8:37:00 AM
你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%
ChatGPT将大模型技术推动到「对话」场景,直接引发了AI技术的爆炸式增长。 用户可以先提出一个粗糙的、不明确的问题,再根据模型的回答逐步完善指令、补充细节,多轮对话也催生出「跟AI打电话」等有趣的应用设计。 不过,现有的大模型性能评估基准仍然是基于单轮对话机制,输入的指令也更长,信息更完善,其在真实场景中多轮对话的性能仍然没有得到很好地评估。
6/9/2025 8:30:00 AM
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。 但我们真正追求的,并不是在“聪明但难控”与“听话但愚钝”之间二选一,而是打造既强又好的AI助手——既具备强大的智能能力,又能始终按照人类意图行事。
6/6/2025 9:15:00 AM
ACL 2025 | 基于Token预算感知的大模型高效推理技术
本位作者分别来自南京大学,罗格斯大学和马萨诸塞大学阿默斯特分校。 第一作者韩廷旭与共同第一作者王震霆是分别来自南京大学和罗格斯大学的博士生,研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。 通讯作者为南京大学房春荣教授。
6/5/2025 11:49:21 AM
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
6/5/2025 9:05:00 AM
最新发现!每参数3.6比特,语言模型最多能记住这么多
语言模型到底能记住多少信息? Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示:每个参数大约 3.6 比特。 一旦达到这个极限,它们就会停止记忆并开始泛化。
6/4/2025 1:56:51 PM
经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。 例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。 尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。
6/3/2025 5:37:10 PM
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知
通往AGI最大的绊脚石,便是互联网数据不够用了! DeepSeek-R1、OpenAI的o系推理模型出世,不再单纯依赖人类标注「标准答案」,而是通过RL实现破局。 但问题来了——当前,LLM依然需要人类设计「正确信号」来指导训练。
6/3/2025 8:51:00 AM
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
无需标注数据、无需繁琐奖励设计,只用10步就能见效——「熵最小化」或许比强化学习更适合大语言模型快速升级。 强化学习(RL)近年来在大语言模型(LLM)的微调中大获成功,但高昂的数据标注成本、复杂的奖励设计和漫长的训练周期,成为制约RL进一步应用的瓶颈。 Ubiquant研究团队提出了一种极为简单有效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅用一条无标签数据,训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。
6/3/2025 8:49:00 AM
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
本文由 NUS ShowLab 主导完成。 第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。 共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。
6/3/2025 8:26:00 AM
SOTA大模型遇上加密数据评测:Qwen3未破10%,o1也栽了丨上海AI Lab等联合研究
大语言模型遇上加密数据,即使是最新Qwen3也直冒冷汗! 尽管当前的推理模型在各类基准测试中展现出卓越的性能,但在密码学这一对逻辑严密性和细节精确度要求近乎苛刻的专业领域,模型的推理能力仍有待深入探索。 密码学不仅需要模型具备高阶数学运算能力和严密的逻辑推理链条,更要求其能够精准识别复杂加密模式中的潜在规律;成功解密需要模型具有极强的综合推理能力。
5/30/2025 9:03:00 AM
还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型
Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。 最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,进一步披露了这个模型的细节。 训练超大规模和极高稀疏性的 MoE 模型极具挑战,训练过程中的稳定性往往难以保障。
5/30/2025 8:45:00 AM
数据提取场景下不同LLM模型对比分析
在数字化时代,数据作为核心资产,其高效处理与利用成为企业和组织发展的关键。 然而,大量数据以非结构化文本、传统文档等形式存在,导致数据提取面临巨大挑战。 人工智能,尤其是大语言模型(LLMs)的爆发式发展,为大规模自动化数据提取提供了新的可能。
5/29/2025 1:50:00 AM
大模型之路
首个面向柔性衣物灵巧操作的仿真平台来了,北大、伯克利联合发布
本论文共同第一作者为王昱然、吴睿海、陈越,导师为北京大学董豪老师。 课题组致力于统一的物体表征操作研究,以实现具有可解释性和泛化能力的物体操作策略。 在机器人操作领域,柔性物体,尤其是衣物的操控始终是一个值得关注的难题。
5/28/2025 6:43:17 PM
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
本文作者分别来自清华大学 CoAI 小组和墨尔本大学。 第一作者张哲昕为清华大学直博三年级学生,研究方向为大模型安全,主要合作者为孙玉豪,来自墨尔本大学,主要指导教师为清华大学王宏宁副教授与黄民烈教授。 基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。
5/28/2025 11:46:18 AM
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
通义千问再放大招!Qwen3-VL 家族新增 2B 与 32B 模型,开源矩阵全面升级
保姆级教程!教你用Coze工作流2分钟生成优质文章
OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
AI for Science
腾讯
Stable Diffusion
Agent
苹果
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
RAG
大语言模型
百度
具身智能
Sora
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
视觉
编程
生成式AI
预测
Transformer
AI模型
伟达
特斯拉
Copilot