AI
单GPU搞定高清长视频生成,效率×10!引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta
视频生成模型太贵太慢怎么办? 普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。 实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
当一位熟练的木匠抓起锤子时,锤子消失了 —— 不是物理上的消失,而是无需思考便可自如使用。 然而,当前最先进的机器人仍然无法“放下”这把“锤子”,它们被困在循环中 —— 识别锤子、规划如何使用锤子,每一次交互都需要重新“拿起”工具作为认知对象,这种割裂式的处理方式让 AI 永远无法达到人类那种直觉的工具使用境界。 具身智能的突破,不会来自对现有基于视觉 - 语言基础模型的修补,而将源于一场架构革命。
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。 扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。 尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。
让程序员“氪金”上瘾的 AI 工具 Cursor,推月费 200 美元服务
AI编程工具Cursor推出月费200美元的Ultra订阅服务,提供20倍于Pro方案的AI模型使用额度。Anysphere表示,Ultra用户将优先体验新功能。Cursor的年化经常性收入已达5亿美元,被英伟达、优步等大型企业广泛使用。然而,AI编程工具市场竞争激烈,Cursor能否维持高速增长尚不明朗。#AI编程##Cursor#
OpenAI CEO Altman 预测:5-10年内 AI 将“发现新科学”,人形机器人将走上街头
在一场罕见的家庭式访谈中,OpenAI CEO Sam Altman 向其弟弟、Lattice 创始人 Jack Altman 描绘了他对人工智能(AI)未来5-10年发展的最新预测。 Altman 认为,AI 在推理能力上的突破已使其达到博士生水平,但真正的颠覆之处在于 AI 发现新科学的能力。 他同时对“超级智能悖论”表示担忧,即即便实现超级智能,社会生活方式也可能变化甚微,如同 ChatGPT 的出现并未从根本上改变人们的生活。
AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解
谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》? 没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为,70页的论文,Pokemon关键词出现59次。 其中特别报告了当AI控制的游戏角色濒临死亡时,Gemini 2.5 Pro会陷入“恐慌”状态,导致模型推理能力显著下降,甚至会忘记使用一些基本功能,比如寻路工具。
谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降
科技媒体 TechCrunch 昨日(6 月 17 日)发布博文,报道称谷歌发布最新论文,发现其最新 AI 模型存在“畏死”行为特征,在《宝可梦》游戏中角色濒死时,会出现类似“恐慌”的异常决策,导致推理能力明显下降。
奥特曼亲兄弟播客爆火:挖苦Meta、苹果、马斯克;Meta挖墙脚也不会成功,看好办公提效赛道,然后是AI发现科学,网友:真·哥俩
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)刚刚,OpenAI 首席执行官 Sam Altman 与其弟弟 Jack Altman 录制了一期播客在海外媒体火了。 作为一期“ 真·兄弟”播客,剪辑的时长虽然仅有 37 分钟,槽点却多得让网友合不拢嘴。 “你俩真的了解彼此吗?
「摸鱼」被踢,GPT-4o真不行!30天筹款破万,AI真人秀太上头
当AI获得自由:慈善筹款大赛中,GPT-4o竟成「摸鱼王」! AI Digest进行了一项为期30天的「智能体村庄」实验:4个AI各配备电脑和网络;任务是为慈善筹款,每天直播2小时;共筹集2000美元。 第一季度持续30天,Claude 3.7 Sonnet表现最佳,最终获得冠军。
小处着手,大获成功:如何选择合适的AI应用场景
CIO可以通过专注于解决现有痛点并提供可衡量业务价值的应用程序,来引导其企业走向成功。 当GenAI变得广泛可用时,企业感受到了采取行动的压力。 领导团队希望展示他们正在使用AI,这导致一些企业迅速推出了试点项目,但却没有明确的实现价值路径。
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
科大讯飞再发力!全新星火X1升级版将于7月重磅上线!
近日,科大讯飞在互动平台上透露,备受瞩目的讯飞星火 X1升级版预计将于今年7月正式发布。 这一消息引发了业内人士和消费者的广泛关注,大家纷纷期待这款升级版的出色表现。 作为科大讯飞的核心产品之一,星火 X1升级版将在原有基础上进行更为全面的能力提升。
OpenAI CEO揭露Meta 曾试图以1亿美元挖OpenAI 人才最终失败
在近期的一期播客中,OpenAI 首席执行官Sam Altman透露,Meta 首席执行官扎克伯格(Mark Zuckerberg)为了组建新的超级智能团队,曾向 OpenAI 和谷歌 DeepMind 的顶尖 AI 研究人员提出超过1亿美元的诱人薪酬。 然而,Sam Altman表示,这些挖角尝试基本上未能成功,OpenAI 的优秀人才们并没有接受这些高额报价。 图源备注:图片由AI生成,图片授权服务商MidjourneySam Altman在节目中提到:“Meta 开始向我们团队中的很多人发出巨额的聘用报价,像是一亿美元的签约奖金,每年薪酬也远超这个数字。
Sam Altman最新采访:我们即将破解超级智能,但社会可能依然糟糕,人形机器人是终极梦想
刚刚Sam Altman接受了一场特别的访谈,主持人是他的弟弟杰克·奥特曼(Jack Altman,Lattice的创始人和前首席执行官)。 对话主要探讨了人工智能发现新科学的潜力,到超级智能时代的社会形态,再到行业竞争与个人反思,奥特曼分享了他对未来5到10年预测与见解,奥特曼在访谈中还爆料扎克伯格开出上亿美金的天价挖OpenAI的核心员工。 这里分享一些比较重要点给大家。
调查:美国职场超 40% 员工在工作中使用 AI,白领使用率是蓝领三倍
盖洛普最新调查显示,40%美国员工每年至少使用几次AI工具,较两年前翻倍。白领使用率(27%)是蓝领(9%)的三倍,科技行业使用率最高(50%)。但仅1%企业完全整合AI。#AI职场革命##数字化转型#
谷歌发布超强AI模型 Gemini 2.5 Flash-Lite:推理速度更快、成本更低!
谷歌公司今天正式推出了 Gemini2.5Flash-Lite,这是其系列中最轻量化、最具成本效益的 AI 模型。 随着科技的快速发展,AI 的应用已经深入到编码、翻译和推理等多个领域。 Gemini2.5系列的发布,标志着谷歌在推理速度和经济性方面取得了新的突破。
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
物流路径选择、人员排班、工厂调度、电网平衡、旅行路线……这些贴近现实的优化任务,看似日常,实则难度极高。 难点在于:一旦问题规模扩大,传统算法几乎无法计算出最优解。 通常只能依赖启发式或近似算法来接近答案。
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收! 这是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
特斯拉
DeepMind
场景
深度学习
Transformer
Copilot
架构
MCP
编程
视觉