模型
美7000万人或被取代,Agent光速卷入职场!北大校友、杨笛一新作
1769年,瓦特改进了蒸汽机。 1945年,计算机诞生。 2001年,3G移动网络开始部署。
6/19/2025 9:10:00 AM
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。 此前,清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,Flux,Llama3,Qwen 等。 近日,清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子(SageAttention3)。
6/19/2025 9:07:00 AM
GPT-5今夏突袭?Sam Altman 首次大谈 GPT-5、AGI
昨天凌晨,OpenAI发布了其联合创始人兼首席执行官Sam Altman的40分钟深度专访。 本次访谈技术干货很足,Altman谈到了大家非常关心的核心产品GPT-5,大概率会在今年夏天发布,但也会因为命名、安全测试、功能迭代等原因延长产品时间。 也谈到了高性能的o3模型以及智能体Deep Research,这些产品对实现AGI的重要性。
6/19/2025 9:06:00 AM
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。 它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超越了人类平均水平。 这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。
6/19/2025 9:04:00 AM
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——大幅提升选型效果的同时,成本却降低近90%。 众所周知,在大模型如雨后春笋般爆发的时代,选型成了AI工程师和研究员最大的痛点之一:模型多如牛毛,怎么选才不会“踩坑”?
6/19/2025 8:55:00 AM
75%预训练数据都能删!Jeff Dean新作:全自动筛除低质量数据
机器学习领域有一条铁律,「Garbage In, Garbage Out.」,就是说模型的质量很大程度上取决于训练数据的质量。 大模型在预训练阶段会吸收海量的数据,其中数据的来源非常杂,导致质量参差不齐。 大量的实验和经验已经证明了,对预训练数据进行质量筛选是提高模型能力和效率的关键。
6/19/2025 8:50:00 AM
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题
AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。 在70亿参数(7B)规模上实现SOTA。
6/19/2025 8:49:00 AM
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
视频生成模型太贵太慢怎么办? 普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。 实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。
6/18/2025 4:42:15 PM
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
当一位熟练的木匠抓起锤子时,锤子消失了 —— 不是物理上的消失,而是无需思考便可自如使用。 然而,当前最先进的机器人仍然无法“放下”这把“锤子”,它们被困在循环中 —— 识别锤子、规划如何使用锤子,每一次交互都需要重新“拿起”工具作为认知对象,这种割裂式的处理方式让 AI 永远无法达到人类那种直觉的工具使用境界。 具身智能的突破,不会来自对现有基于视觉 - 语言基础模型的修补,而将源于一场架构革命。
6/18/2025 4:41:45 PM
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。 扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。 尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。
6/18/2025 4:39:02 PM
谷歌Gemini 2.5全线爆发!勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机
昨夜,Gemini 2.5全家桶三款模型,正式上线。 Gemini 2.5 Pro (正式版,与0605预览版相比无明显变化) Gemini 2.5 Flash(正式版,与0520预览版相比定价有变) Gemini 2.5 Flash-Lite(预览版,最小推理模型)这次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上线,与谷歌I/O大会公布的预览版性能无明显变化。 2.5 Flash-Lite预览版则是速度最快、性价比最高的Gemini 2.5系模型。
6/18/2025 2:18:23 PM
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
6/18/2025 10:09:13 AM
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
刚刚,Gemini 系列模型迎来了一波更新:Gemini 2.5 Pro 稳定版发布且已全面可用,其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用,其与 5 月 20 日的预览版相比无变化,但价格有更新。 新推出了 Gemini 2.5 Flash-Lite 并已开启预览。
6/18/2025 9:56:53 AM
机器之心
微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨
今天凌晨,微软在官网分享了自研的三大创新算法,以帮助大模型增强其推理能力。 无论你是小参数或者是大参数模型玩家,都能从rStar-Math、LIPS 、CPL这三大算法获益,突破推理瓶颈,极大增强模型的数学推理和思考链的能力。 rStar-MathrStar-Math算法主要通过蒙特卡洛树搜索(MCTS)实现深度思考。
6/18/2025 9:06:00 AM
3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis, NVS)正扮演着越来越关键的角色。 近年来,3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术横空出世,凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域的一大突破。 然而,传统3DGS对耗时的「逐场景优化」的依赖,严重限制了其在实际应用中的部署。
6/18/2025 8:54:48 AM
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收! 这是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。
6/18/2025 8:53:00 AM
逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
众所周知,大语言模型的参数量越来越大,算力需求也越来越可怕,然而因为「祖宗之法」,推理只能一个一个 token 按顺序来。 对此,卡耐基梅隆大学(CMU)Infini-Al-Lab 的研究人员拿出了「多元宇宙」Multiverse,这是一个全新的生成式建模框架,支持原生的并行生成。 参与这项研究的机器学习大佬,CMU 助理教授陈天奇表示,这是一个有前途的大方向。
6/18/2025 8:51:28 AM
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。 为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。 仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。
6/18/2025 8:51:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
Claude
苹果
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
MCP
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
预测