理论
谷歌Gemini 2.5全线爆发!勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机
昨夜,Gemini 2.5全家桶三款模型,正式上线。 Gemini 2.5 Pro (正式版,与0605预览版相比无明显变化) Gemini 2.5 Flash(正式版,与0520预览版相比定价有变) Gemini 2.5 Flash-Lite(预览版,最小推理模型)这次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上线,与谷歌I/O大会公布的预览版性能无明显变化。 2.5 Flash-Lite预览版则是速度最快、性价比最高的Gemini 2.5系模型。
6/18/2025 2:18:23 PM
AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解
谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》? 没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为,70页的论文,Pokemon关键词出现59次。 其中特别报告了当AI控制的游戏角色濒临死亡时,Gemini 2.5 Pro会陷入“恐慌”状态,导致模型推理能力显著下降,甚至会忘记使用一些基本功能,比如寻路工具。
6/18/2025 2:06:40 PM
√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留
Transformer 及其核心的注意力机制在自然语言处理和计算机视觉等领域带来了革命性进展,展现出强大的深度上下文建模和数据间复杂依赖关系捕捉能力。 然而,其在处理视觉数据时面临两大核心挑战:二次计算复杂度使其难以高效处理高分辨率图像等长上下文数据;忽略空间结构,将多维图像视为无结构的一维标记序列,破坏了图像固有的空间连贯性,而这种信息对于依赖空间关系的视觉任务至关重要。 为克服效率瓶颈,近期研究如线性注意力和状态空间模型(如 Mamba) 致力于将复杂度降低至线性。
6/18/2025 1:59:11 PM
奥特曼亲兄弟播客爆火:挖苦Meta、苹果、马斯克;Meta挖墙脚也不会成功,看好办公提效赛道,然后是AI发现科学,网友:真·哥俩
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)刚刚,OpenAI 首席执行官 Sam Altman 与其弟弟 Jack Altman 录制了一期播客在海外媒体火了。 作为一期“ 真·兄弟”播客,剪辑的时长虽然仅有 37 分钟,槽点却多得让网友合不拢嘴。 “你俩真的了解彼此吗?
6/18/2025 12:22:56 PM
云昭
大模型的性能提升:KV-Cache
大语言模型(LLM)在生成文本时,通常是一个 token 一个 token 地进行。 每当模型生成一个新的 token,它就会把这个 token 加入输入序列,作为下一步预测下一个 token 的依据。 这一过程不断重复,直到完成整个输出。
6/18/2025 11:16:50 AM
曹洪伟
「摸鱼」被踢,GPT-4o真不行!30天筹款破万,AI真人秀太上头
当AI获得自由:慈善筹款大赛中,GPT-4o竟成「摸鱼王」! AI Digest进行了一项为期30天的「智能体村庄」实验:4个AI各配备电脑和网络;任务是为慈善筹款,每天直播2小时;共筹集2000美元。 第一季度持续30天,Claude 3.7 Sonnet表现最佳,最终获得冠军。
6/18/2025 11:06:02 AM
小处着手,大获成功:如何选择合适的AI应用场景
CIO可以通过专注于解决现有痛点并提供可衡量业务价值的应用程序,来引导其企业走向成功。 当GenAI变得广泛可用时,企业感受到了采取行动的压力。 领导团队希望展示他们正在使用AI,这导致一些企业迅速推出了试点项目,但却没有明确的实现价值路径。
6/18/2025 10:55:35 AM
Becky
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。 其他作者均为 Pico MR 团队核心成员。 去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。
6/18/2025 10:09:13 AM
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
刚刚,Gemini 系列模型迎来了一波更新:Gemini 2.5 Pro 稳定版发布且已全面可用,其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用,其与 5 月 20 日的预览版相比无变化,但价格有更新。 新推出了 Gemini 2.5 Flash-Lite 并已开启预览。
6/18/2025 9:56:53 AM
机器之心
规模化应用生成式 AI 前,需先绘制 LLM 使用与风险图谱
在本次Help Net Security访谈中,The Motley Fool应用与云安全总监Paolo del Mundo探讨了企业如何通过建立防护机制来扩展AI应用规模,同时降低提示注入、不安全输出和数据泄露等生成式AI特有风险。 已部署AI功能团队的首步审计重点生成式AI以传统威胁模型常忽视的方式扩大了攻击面。 新入行的安全从业者应首先了解这类新型漏洞及其防御方法。
6/18/2025 9:50:09 AM
Gy0un
Sam Altman最新采访:我们即将破解超级智能,但社会可能依然糟糕,人形机器人是终极梦想
刚刚Sam Altman接受了一场特别的访谈,主持人是他的弟弟杰克·奥特曼(Jack Altman,Lattice的创始人和前首席执行官)。 对话主要探讨了人工智能发现新科学的潜力,到超级智能时代的社会形态,再到行业竞争与个人反思,奥特曼分享了他对未来5到10年预测与见解,奥特曼在访谈中还爆料扎克伯格开出上亿美金的天价挖OpenAI的核心员工。 这里分享一些比较重要点给大家。
6/18/2025 9:27:05 AM
谷歌助力神经科学飞跃,破解斑马鱼全脑活动密码
谷歌、哈佛大学、HHMI Janelia研究所和拉德堡德大学的科学家们联合发布了,一项开创性的研究成果ZAPBench。 这是一个专门用于预测斑马鱼全脑活动的基准测试平台,并在2025年国际学习表征会议上发表,为神经科学和机器学习的交叉领域带来了新的突破。 在自然科学中,通过过去的观测来预测系统未来行为的能力是理解该系统的关键标准。
6/18/2025 9:11:33 AM
微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨
今天凌晨,微软在官网分享了自研的三大创新算法,以帮助大模型增强其推理能力。 无论你是小参数或者是大参数模型玩家,都能从rStar-Math、LIPS 、CPL这三大算法获益,突破推理瓶颈,极大增强模型的数学推理和思考链的能力。 rStar-MathrStar-Math算法主要通过蒙特卡洛树搜索(MCTS)实现深度思考。
6/18/2025 9:06:00 AM
大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%
大模型学习不仅要正确知识,还需要一个“错题本”? 上海AI Lab提出了一种新的学习方式,构建了“错误-反思-修正”数据,让大模型仿照人类的学习模式,从错误中学习、反思。 结果,在Llama3-8B上,数学题的解题准确率平均提升了13.3%。
6/18/2025 9:03:07 AM
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
物流路径选择、人员排班、工厂调度、电网平衡、旅行路线……这些贴近现实的优化任务,看似日常,实则难度极高。 难点在于:一旦问题规模扩大,传统算法几乎无法计算出最优解。 通常只能依赖启发式或近似算法来接近答案。
6/18/2025 9:00:00 AM
3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis, NVS)正扮演着越来越关键的角色。 近年来,3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术横空出世,凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域的一大突破。 然而,传统3DGS对耗时的「逐场景优化」的依赖,严重限制了其在实际应用中的部署。
6/18/2025 8:54:48 AM
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收! 这是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。
6/18/2025 8:53:00 AM
逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
众所周知,大语言模型的参数量越来越大,算力需求也越来越可怕,然而因为「祖宗之法」,推理只能一个一个 token 按顺序来。 对此,卡耐基梅隆大学(CMU)Infini-Al-Lab 的研究人员拿出了「多元宇宙」Multiverse,这是一个全新的生成式建模框架,支持原生的并行生成。 参与这项研究的机器学习大佬,CMU 助理教授陈天奇表示,这是一个有前途的大方向。
6/18/2025 8:51:28 AM
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Sora
Agent
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
RAG
大型语言模型
预测
具身智能
深度学习
伟达
视觉
Transformer
神器推荐
AGI
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA