模型
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。 扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。 尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。
6/18/2025 4:39:02 PM
谷歌Gemini 2.5全线爆发!勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机
昨夜,Gemini 2.5全家桶三款模型,正式上线。 Gemini 2.5 Pro (正式版,与0605预览版相比无明显变化) Gemini 2.5 Flash(正式版,与0520预览版相比定价有变) Gemini 2.5 Flash-Lite(预览版,最小推理模型)这次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上线,与谷歌I/O大会公布的预览版性能无明显变化。 2.5 Flash-Lite预览版则是速度最快、性价比最高的Gemini 2.5系模型。
6/18/2025 2:18:23 PM
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
6/18/2025 10:09:13 AM
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
刚刚,Gemini 系列模型迎来了一波更新:Gemini 2.5 Pro 稳定版发布且已全面可用,其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用,其与 5 月 20 日的预览版相比无变化,但价格有更新。 新推出了 Gemini 2.5 Flash-Lite 并已开启预览。
6/18/2025 9:56:53 AM
机器之心
微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨
今天凌晨,微软在官网分享了自研的三大创新算法,以帮助大模型增强其推理能力。 无论你是小参数或者是大参数模型玩家,都能从rStar-Math、LIPS 、CPL这三大算法获益,突破推理瓶颈,极大增强模型的数学推理和思考链的能力。 rStar-MathrStar-Math算法主要通过蒙特卡洛树搜索(MCTS)实现深度思考。
6/18/2025 9:06:00 AM
3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis, NVS)正扮演着越来越关键的角色。 近年来,3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术横空出世,凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域的一大突破。 然而,传统3DGS对耗时的「逐场景优化」的依赖,严重限制了其在实际应用中的部署。
6/18/2025 8:54:48 AM
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收! 这是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。
6/18/2025 8:53:00 AM
逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
众所周知,大语言模型的参数量越来越大,算力需求也越来越可怕,然而因为「祖宗之法」,推理只能一个一个 token 按顺序来。 对此,卡耐基梅隆大学(CMU)Infini-Al-Lab 的研究人员拿出了「多元宇宙」Multiverse,这是一个全新的生成式建模框架,支持原生的并行生成。 参与这项研究的机器学习大佬,CMU 助理教授陈天奇表示,这是一个有前途的大方向。
6/18/2025 8:51:28 AM
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。 为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。 仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。
6/18/2025 8:51:00 AM
形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准
近年来,自动定理证明(ATP)取得了显著进展,但大部分工作都集中在处理纯文本形式的定理。 然而,在现实世界中,尤其是在几何学领域,许多定理的呈现和理解都离不开图像、图表等视觉元素。 人类数学家善于从这些图表中获取直觉,并将其作为引导严谨证明过程的关键。
6/18/2025 8:49:00 AM
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升? 上海人工智能实验室联合中国人民大学提出的GRA框架(Generator–Reviewer–Adjudicator) 正是这样一种新范式:该方法以“多人协作”、“角色分工”的理念为核心,系统性探索了多开源小模型如何通过协同机制生成高质量训练数据。 实验结果显示,在涵盖数学、代码、逻辑推理、通识问答等10个主流数据集上,GRA生成的数据质量与单个大型语言模型(如Qwen-2.5-72B-Instruct)输出相当或更高,并在多数任务中取得了显著领先。
6/18/2025 8:47:00 AM
MiniMax Agent的能力,彻底震撼了我
我最近试用了一款叫MiniMax Agent的产品,说实话,体验完之后整个人都不好了。 图片你想想,以前我们做个网站,得先构思、找素材、写代码、调UI,光是找合适的图片就要花半天时间。 现在这玩意儿,你只要说一句话,它就能帮你搞定一切。
6/18/2025 2:01:00 AM
阿丸笔记
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM——MiniMax-M1。
6/17/2025 3:24:48 PM
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。
6/17/2025 9:09:00 AM
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
深夜,沉寂已久的Kimi突然发布了新模型——开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。 参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。 有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。
6/17/2025 9:07:24 AM
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。 但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。 一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
6/17/2025 9:04:33 AM
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge)两天完成人类12年工作——医学研究领域中,系统评价(SRs)作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。
6/17/2025 9:00:00 AM
MIT工科生跨界AI,独作论文登Nature:只需3.5小时修复600年前名画
MIT理工男跨界艺术,一不小心就以一篇独作论文登上Nature? 由他设计的AI算法,将原本需要数月/数年才能搞定的名画修复工作,极限压缩至几小时。 Alex Kachkine,打破画作修复只能对原作数字扫描品进行“缝缝补补”的传统艺能,提出一种“以数字方式修复一幅画,并在物理上实现效果”的全新方法。
6/17/2025 8:50:00 AM
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用