模型
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。 本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。 多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。
7/15/2025 9:00:00 AM
谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱
2023年以来,大模型的战场由decoder-only架构一统江湖。 从GPT家族到LLaMA、Gemma、Mistral,再到Claude、Command-R、Yi系列,能叫得出名字的主流LLM,几乎都是清一色的「纯解码器」(decoder-only)。 但今天,Google带着T5Gemma杀回来了——不仅重启了encoder-decoder的技术路线,还略施小技就让它原地起飞,暴打原版Gemma 2。
7/15/2025 8:58:00 AM
MIT满分学霸掏空AI初创,谷歌24亿收购黑幕曝光!数百员工血本无归
OpenAI收购Windsurf在即,突然半路杀出个谷歌! 但这波可不是收购,而是釜底抽薪:谷歌直接挖走了整个Windsurf领导层 前30位核心AI工程师! 为了这次挖角,谷歌豪掷24亿美元!
7/15/2025 8:52:00 AM
具身智能大脑+首个SaaS开源框架,智源研究院刷新10项测评基准,加速群体智能新范式
具身智能大脑 全球首个具身智能SaaS开源框架,智源研究院在具身智能领域发力了——“通用具身大脑”RoboBrain 2.0,面向真实物理环境,集感知、推理与规划于一体。 全新32B版本凭借时空认知能力的突破,在多项权威具身智能基准上全面刷新纪录。 RoboOS 2.0,作为全球首个具身智能SaaS开源框架,创新性集成MCP协议与无服务器架构,实现轻量化部署,打通智能大脑与异构本体协同通路。
7/15/2025 8:45:00 AM
首次综述「边-云协同计算」,分布式智能与模型优化的最新进展
随着物联网(IoT)设备的激增和实时应用需求的增长,传统云计算面临延迟高、带宽受限等问题,促使边缘计算的兴起。 边缘-云协同计算(Edge-Cloud Collaborative Computing, ECCC)通过整合边缘节点和云端资源,构建了一个分布式计算范式,旨在实现高效、低延迟的智能处理。 人工智能(AI),特别是深度学习和大语言模型(LLMs)的快速发展,进一步推动了ECCC在分布式智能和模型优化领域的应用。
7/14/2025 4:19:54 PM
AI有味觉了:分辨可乐和咖啡,只需“尝一尝”丨Nature
AI现在有味觉了! 近日,科学家研发出一种人工味觉系统,不仅感知酸、甜、苦、咸准确率高达90%,甚至能分辨可乐和咖啡。 相关研究已发表于《美国国家科学院院刊》(PNAS),并作为新闻报道登上了《Nature》官网。
7/14/2025 2:44:50 PM
12人团队打造AI陪伴神器,半年内斩获3000万美元投资
靠AI陪伴,一个诞生才半年的APP就获得了3000万美元(约2.15亿人民币)融资? 这个APP名叫Tolan,今年2月才正式上线,而且整个公司只有12人。 自推出以来,Tolan的下载量已超过300万次,每月收入超过100万美元,累计10万付费用户。
7/14/2025 2:44:19 PM
英伟达&MIT等推出Long-RL,长视频训练速度翻倍
请想象……一个 AI—— 它要完整看完一场几十分钟的世界杯决赛,不只是数球门数,更要跨越上百个镜头的线索、情绪、战术细节,甚至要像人一样推断:谁会赢点球大战? 足球比赛预测分析预测《星际争霸 2》这样的即时战略游戏同样需要考虑许多不同的变量,难度也非常巨大。 星际争霸 2 比赛预测分析再换个场景:同样是 AI,在一场紧张的德州扑克超级豪客赛上,面对职业牌手的每一次下注、加注、弃牌,能否像一个顶尖牌手一样,推理出对手藏在手里的那两张底牌?
7/14/2025 2:38:45 PM
用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA
如今,强化学习(Reinforcement Learning,RL)在多个领域已取得显著成果。 在实际应用中,具有长时间跨度和稀疏奖励特征的任务非常常见,而强化学习方法在这类任务中的表现仍难令人满意。 传统强化学习方法在此类任务中的探索能力常常不足,因为只有在执行一系列较长的动作序列后才能获得奖励,这导致合理时间内找到有效策略变得极其困难。
7/14/2025 1:47:29 PM
碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强
国内知名大模型平台月之暗面(MoonshotAI)开源了最新模型Kimi-K2。 Kimi-K2是一个混合专家模型,总参数1万亿,320亿参数处于激活状态,训练数据高达15.5Ttoken,有基础和微调两种模型。 除了常规的问答功能之外,Kimi-K2特意针对AIAgent进行了大幅度优化,非常擅长使用各种工具,能帮助开发者打造特定不同领域的智能体。
7/14/2025 9:23:45 AM
陶哲轩看傻:三破18年数学纪录!谷歌推出「AI爱迪生」,科研不再靠灵感?
5月中旬,谷歌在科学和计算领域投下了重磅炸弹:AlphaEvolve。 利用Gemini模型,它发现全新的算法。 比如说,仅用30天,AlphaEvolve与人类联手三度攻克一项封尘18年的数学难题!
7/14/2025 9:20:00 AM
AI失忆术!只需3个注意力头,就能让大模型忘记「狗会叫」
大模型在预训练阶段「读万卷书」,几乎囊括了全网的知识与语料。 但你有没有想过:我们能否让它「选择性遗忘」某些事实,甚至是常识性事实,比如「狗会叫」? 近日,Meta和纽约大学的研究团队发布了突破性论文《From Concepts to Components》,首次揭示了在 Transformer架构下,精准定位并控制AI认知模块的突破性方法。
7/14/2025 9:20:00 AM
这个AI精准模拟人类行为大脑状态,上Nature了
首个能跨领域精准预测人类认知的基础模型诞生! 不仅可以完全预判你的行为,还能知道你是如何思考、以及为什么思考。 这是一项最新登上Nature的突破性研究,来自德国的研究团队只用了5天训练时间就开发出人类认知的通用计算模型——Centaur。
7/14/2025 9:18:26 AM
马斯克20亿送Grok 4上火星!20万GPU造宇宙大脑,一句话生成3D黑洞
1条指令生成整段动画,2分钟内部署一款游戏!Grok 4发布仅仅12小时后,AI开发者Mckay Wrigley体验之后,直呼「强得疯狂」! 在一次请求中,Grok 4 Heavy就生成了完整动画,从人群行走到鸟瞰镜头无缝切换,展现惊人理解与执行力,而其他模型完全无法匹敌。 提示词:Create an animation of a crowd of people walking to form 「Hello world, I am Grok」 as camera changes to birds-eye.还能表现得像阅兵一样,整齐划一地行进:这款3D视频,全网爆火,浏览量破350万。
7/14/2025 9:16:00 AM
奥特曼气到快失眠?OpenAI前大佬力挺:小扎砸钱挖墙脚,1亿美元很合理
最近,Meta不断从竞争对手那里挖走顶尖AI人才,开出的签约薪酬包更是令人咋舌! 比如,庞若鸣跳槽到Meta,总薪酬包高达惊人的2亿美元。 为了挖走OpenAI的人才,小扎支付了1亿美元签下了Jiahui Yu。
7/14/2025 9:14:00 AM
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
本文第一作者为香港科技大学(广州)机器人系一年级博士生宋文轩,主要研究方向为VLA模型,共同第一作者是来自香港科技大学广州的研究助理陈家毅,项目leader为浙江大学和西湖大学联合培养博士生丁鹏翔,他们也是具身智能领域开源项目OpenHelix以及LLaVA-VLA的研究团队。 通讯作者为香港科技大学广州的李昊昂教授,他是今年的CVPR2025 Best Paper Candidate的获得者。 近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型因其出色的多模态理解与泛化能力,已成为机器人领域的重要研究方向。
7/14/2025 9:14:00 AM
AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%
随着大模型的崛起,AI编程领域正在发生翻天覆地的变化。 各种编程大模型、编程工具涌现,通过自动补全代码、自动 debug 等实用的功能为开发者的日常工作提供极大便利,并在一定程度上提升了开发效率。 不过,问题来了,AI 编程工具带来的影响真是如此吗?
7/14/2025 9:10:00 AM
7B模型对标GPT-4o,全球首个医疗代码生成大模型训练平台来了
医疗AI场景复杂,需要“又懂医疗又懂编程”的agent。 但像GPT这样现成的大模型难以直接部署,该如何突破技术壁垒? 答案是:打造一个统一的训练平台,专门训练能够生成医疗代码的大模型。
7/14/2025 9:00:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉