理论

UC伯克利等提出具身智能「动作Tokenizer」，效率飙升5倍！

来自π，伯克利和斯坦福的研究者近期提出了FAST，一种为VLA模型设计的高效动作Tokenizer。 FAST旨在解决传统动作Tokenization方法在处理精细任务时面临的挑战，为VLA模型在更复杂、高频的机器人控制任务带来了显著改进。将FAST与π0 VLA结合，在1万小时的机器人数据上对π0-FAST进行训练，效果与最先进的扩散VLA相当，训练时间最多缩短5倍。

1/22/2025 3:21:00 PM 新智元

截胡OpenAI！清华复旦等抢先开源智能体框架Eko，一句话打造「虚拟员工」

OpenAI的首席执行官Sam Altman最近宣布，2025年将推出「虚拟员工计划」，代号Operator，AI智能体能够自主执行任务，如写代码、预订旅行等，成为企业中的「数字同事」。抢在OpenAI发布Operator之前，清华、复旦和斯坦福的研究者联合提出了名为Eko的 Agent开发框架，开发者可以通过简洁的代码和自然语言，快速构建可用于生产的「虚拟员工」。 AI智能体能够接管用户的电脑和浏览器，代替人类完成各种任务，为工作流程提供自动化支持。

1/22/2025 3:17:43 PM 新智元

41%博士后逃生学术界，顶刊PNAS揭残酷真相！名校光环背后曝职业危机

去年，随着LLM产品化和工程化的发展，工业界的研究岗迅速缩减，许多AI博士面临巨大的就业压力，纷纷表示后悔读博。工业界机会稀少，学术界同样问题重重。为此，有的博士生甚至转行去当了主播。

1/22/2025 3:14:57 PM 新智元

36000亿元！OpenAI启动全球史上最大规模AI基础设施项目，英伟达软银甲骨文均参与

史上最大规模AI基础设施项目启动！不久之前，OpenAI官宣了一项“星际之门”（The Stargate Project）计划——将与软银甲骨文组建合资公司，未来4年内总投资5000亿美元（约合3.64万亿元人民币）在美国建立多个AI数据中心。该计划将立即启动，而且OpenAI一出手就准备先投它个1000亿美元。

1/22/2025 2:14:01 PM

深扒星际之门主角团：中东皇室也参与了！奥特曼搭上特朗普，至少5000亿开搞“星际之门”！大规模AI基建时代：带动数十万美国人就业

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）太炸裂了！一早上刷到OpenAI奥特曼和特朗普同框了！特朗普大手一挥，宣布了一个疯狂燃烧经费的AI项目——星际之门计划，将投资 "至少 "5000亿美元！

1/22/2025 1:41:11 PM 伊风

新的 AI 安全在 2025 年正对 CISO 及其团队构成挑战

安全团队总是必须适应变化，但2025年将出现的新发展可能会使变化特别具有挑战性。 AI 创新步伐的加快、日益复杂的网络威胁和新的监管政策将要求首席信息安全官（CISO）驾驭更复杂的环境。供应商正在迅速将AI 功能添加到现有产品中，其使用的基础大型语言模型（LLM）在增强产品能力的同时也暴露了新的攻击面给攻击者，企业CISO 需要了解他们面临这些威胁的严重程度，以及如何缓解这些威胁。

1/22/2025 11:18:41 AM Zicheng

模型压缩70%！精度更高！开源MoDec-GS：更紧凑、更精确的动态3DGS

本文经3D视觉之心公众号授权转载，转载请联系出处。论文信息标题：MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting作者：Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim机构：ETRI, South Korea、KAIST, South Korea、Chung-Ang University, South Korea原文链接：：. 导读3D Gaussian Splatting (3DGS)在场景表示和神经渲染方面取得了重大进展，并致力于使其适应动态场景。

1/22/2025 11:00:00 AM 3DCV

仅用25%数据实现性能超越！MapGS：解决特定传感器配置的在线建图模型训练问题

本文经3D视觉之心公众号授权转载，转载请联系出处。避免传感器配置差异近年来，多模态传感器融合的新进展推动了自动驾驶应用中感知方法的发展。这些进展涵盖了 3D 目标检测、在线地图生成与推理、占用预测，以及端到端框架的形式。

1/22/2025 10:40:00 AM 3D视觉之心

几个开发大模型应用常用的 Python 库

一、应用层开发1. FastAPIFastAPI是构建API的优选。顾名思义，它快速、简单，并能与Pydantic完美集成，实现无缝数据验证。

1/22/2025 10:33:44 AM zone7

你要跳舞么？复旦&微软提出StableAnimator：可实现高质量和高保真的ID一致性人类视频生成

本文经AIGC Studio公众号授权转载，转载请联系出处。由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架，实现了高质量和高保真的ID一致性人类视频生成。 StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。

1/22/2025 10:30:00 AM AIGC Studio

图像超分辨新SOTA！南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目

南洋理工大学的研究者们提出了一种基于扩散反演的新型图像超分辨率 (SR) 技术，可以利用大型预训练扩散模型中蕴含的丰富图像先验来提高 SR 性能。该方法的核心是一个深度噪声预测器，用于估计前向扩散过程的最佳噪声图。一旦训练完成，这个噪声预测器就可以用来初始化沿扩散轨迹的部分采样过程，从而生成理想的高分辨率结果。

1/22/2025 10:15:00 AM AIGC Studio

解决文生图质量和美学问题，字节跳动提出VMix：多维度美学控制方法，一键提升图像美学

本文经AIGC Studio公众号授权转载，转载请联系出处。为了解决扩散模型在文生图的质量和美学问题，字节跳动&中科大研究团队提出VMix美学条件注入方法，通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型，从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块，无需再训练即可应用于不同的开源模型，提升模型的生成美感。

1/22/2025 9:48:07 AM AIGC Studio

中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头

模型蒸馏是一种将知识从大型语言模型（LLMs）转移到较小模型的技术，旨在创建资源高效且性能卓越的模型。然而，过度蒸馏可能会导致同质化，降低模型之间的多样性，并削弱它们稳健处理复杂或新任务的能力。这些限制凸显了系统地量化蒸馏过程及其影响的必要性。

1/22/2025 9:32:30 AM 新智元

刚刚，特朗普与奥特曼惊天启动星际之门！4年狂砸5000亿美金，孙正义任董事长

AI曼哈顿计划正式开启，ASI真的不远了！刚刚，特朗普正式官宣「星际之门计划」，要在未来4年内砸5000亿美金，重塑美国在AI界领导地位。这项计划将由OpenAI、软银、甲骨文牵头，首期先部署1000亿美元。

1/22/2025 9:06:59 AM 新智元

Meta公布BLT新架构：告别token，拥抱patch

译者 | 核子可乐审校 | 重楼Meta发布的BLT架构为大模型扩展找到又一条出路，也开启了用patch方法取代token的全新可能性。开篇先提问：我们为什么非得把文本拆分成token？直接用原始字节怎么就不行？

1/22/2025 8:17:03 AM 核子可乐

如何避免交叉验证中的数据泄露？

大家好，我是小寒在机器学习中，交叉验证（Cross-Validation）是一种常用的模型评估技术，目的是通过将数据集分割为多个子集，反复训练和验证模型，以便更好地估计模型的性能。然而，在交叉验证过程中，数据泄露（Data Leakage）是一个非常严重的问题，它会导致模型的评估结果过于乐观，进而使得模型在实际应用中表现不佳。什么是数据泄露数据泄露是指在模型训练过程中，模型不恰当地接触到了与验证集或测试集相关的信息，导致模型的训练过程中“提前知道”了本应该不在训练数据中的信息。

1/22/2025 7:59:59 AM 程序员小寒

看破不可见数据集，自我监督学习成为细胞组学新的复杂系统处理利器

编辑丨&自我监督学习 SSL 是一个概念，即数据及其固有的成对关系足以学习有意义的数据表示。监督学习依赖于成对的观察值和标签，而 SSL 仅依赖于输入和样本间关系。 SSL 已成为一种强大的方法，用于从庞大、未标记的数据集中提取有意义的表示，从而改变计算机视觉和自然语言处理。

1/21/2025 7:11:00 PM ScienceAI

奥特曼在OpenAI「经济蓝图」画下的大饼，能否撼动美AI政策？盘点美国AI大厂的政策站队，硅谷即将上演“权力的游戏”

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）OpenAI 15页的经济蓝图刷爆了整个AI圈！，给美国AI画了好一张大饼啊！比较诱人的点包括：发展AI需要大搞基建，将拉动经济带来大量就业：“人工智能所带来的经济机会又是如此诱人，不容放弃。

1/21/2025 6:04:38 PM 伊风

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉