数据

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

缩放定律的放缓带来的技术路径演变在 2024 年的 NeurIPS 会议上，Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点，尤其集中于 Scaling Law 的观点：「现有的预训练方法将会结束」，这不仅是一次技术的自然演进，也可能标志着对当前「大力出奇迹」方法的根本性质疑。 Ilya 讨论了预训练模型的局限性，预见 AI 系统需要发展出更加接近人类思考方式的推理能力。他强调，为了突破当前的局限并继续提升 AI 的能力，必须寻找新的训练方法。

1/2/2025 2:20:00 PM 机器之心

全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘

刚刚过去的 2024 年是生成式 AI 大发展的一年，我们见证了 OpenAI Sora 的崛起，大模型服务价格的飞速下降，以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。对于身在 AI 领域的工程师和学者们来说，他们看待这一年的观点会有不同吗？

1/2/2025 1:15:00 PM 机器之心

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

谁能想到，微软在一篇医学领域的论文里，竟然把OpenAI模型的参数全「曝光」了！ GPT-4参数约1.76万亿GPT-4o参数约2000亿GPT-4o mini参数约80亿o1-preview参数约3000亿o1-mini参数约1000亿Claude 3.5 Sonnet参数约1750亿研究人员：参数均为估算值让所有人难以置信的是，GPT-4o系列的参数如此少，mini版甚至只有8B。有网友猜测，4o mini是一个大约有40B参数的MoE模型，其中激活参数为8B。

1/2/2025 1:00:00 PM 新智元

GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了

近一两年，Transformer 跨界 CV 任务不再是什么新鲜事了。自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来，各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。之后，在 PyTorch 中实现 Vision Transformer 成为了研究热点。

1/2/2025 9:32:54 AM 计算机视觉研究院

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。

1/2/2025 9:30:00 AM 新智元

【多模态&LLM】LLaVA系列算法架构演进：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）

LLaVA模型架构目标是结合预训练LLM和视觉模型的能力，llava使用Vicuna作为的LLM （语言解码器），CLIP作为视觉编码器。训练过程分两阶段：LLaVA 1.5LLaVA1.5是LLaVA改进版本，主要在网络结构、数据集规模上进行改进。 LLaVA 1.5模型结构还是之前的llava模型结构，但是做了一些小修改：将视觉-语言连接器由线性投影修改成一个两层的mlp（前期文章的NVLM-D也是两层的mlp链接视觉-语言模型）；将224分辨率的视觉编码器修改为336pix的视觉编码器(带有MLP投影的CLIP-ViT-L-336px)。

12/31/2024 3:18:42 PM 余俊晖

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

ViT核心作者Lucas Beyer，长文分析了一篇改进Transformer架构的论文，引起推荐围观。他前不久从谷歌跳槽到OpenAI，这次是在飞机上阅读论文并写下了分析。这篇论文被他简写为DiffTranformer，不过不是Sora底层架构的那个Diffusion Transformer，而是不久前来自微软的Differencial Transformer。

12/31/2024 2:30:00 PM 量子位

2024年AI编程有多强？谷歌工程主管揭秘残酷真相

2024年，AI编程已然渗透了各行各业，影响着软件的整个生命周期。那么问题来了，AI coding用过都说好，但我们平时用的软件咋感觉没啥进步呢？近日，Addy Osmani，谷歌的工程主管，同时也是一位亚马逊畅销书作家，为我们揭示了AI辅助编码在一线开发中的真实情况。

12/31/2024 1:30:00 PM 新智元

AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

暨南大学通用机器学习课题组由网络空间安全学院和信息科学技术学院的多名青年教师、博士生、硕士生和本科生共同组成，研究方向包括通用逼近理论、分布外泛化、非凸优化、稀疏学习、深度学习框架的基础模块开发、优化器开发、隐私保护与增强等。自 2024 年 4 月至 12 月，课题组作为第一单位已获得所有 CCF A 机器学习国际顶级会议 ICML（2 篇）、NeurIPS 和人工智能国际顶级会议 IJCAI、AAAI 录用论文共 5 篇。本文第一作者为课题组负责人赖兆荣，通讯作者为博士生李程，其他合作作者为课题组教师吴小天、方良达、陈子良。

12/30/2024 2:00:00 PM 机器之心

港科大开源VideoVAE+，视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE ，提出了一种强大的跨模态的视频变分自编码器（Video VAE），通过提出新的时空分离的压缩机制和创新性引入文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持很好的时间一致性和运动恢复。论文地址：：模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer，同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video，CogvideoX VAE，WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。什么是 VideoVAE 模型VideoVAE 模型（Video Variational Autoencoder）是一种基于深度学习的生成模型，用于对视频数据进行压缩、重建和生成，讲视频从 RGB 像素空间投影到低维度的 latent 空间。

12/30/2024 1:40:00 PM 机器之心

稚晖君开源百万机器人真机数据集

年末大礼包，稚晖君他又双叒来开源了！百万真机数据集开源项目AgiBot World，也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。该项目由稚晖君具身智能创业项目智元机器人，携手上海AI Lab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。

12/30/2024 12:41:52 PM 量子位

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

大模型时代，全世界AI从业者追赶OpenAI GPT系列的脚步仍未停歇，但也有人，坚持深耕在国产原创的另一条大模型之路上。南京大学副校长、国际人工智能联合会理事会主席周志华教授，就是其中代表。他提出的“学件范式”，旨在从数据隐私角度着手，通过模型规约的方式构建基座系统，让用户的需求能被自动匹配到合适的模型、模型组合上，安全、可靠地复用他人开发的模型工具。

12/30/2024 12:30:00 PM 量子位

低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws

论文标题：Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens论文链接：（low-bit quantization）和低比特大语言模型（low-bit LLM）近期受到了广泛的关注，因为有一些研究发现，它们能够以更小的模型规模、更低的内存占用和更少的计算资源，取得与 fp16 或 bf16 精度相当的性能表现。这一发现让低比特语言模型一度被认为是实现模型高效化的一个非常有前景的方向。然而，这一观点受到了腾讯 AI Lab 的挑战。

12/30/2024 10:35:00 AM 机器之心

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

在机器人空间泛化领域，原来也有一套Scaling Law！来自清华和新加坡国立大学的团队，发现了空间智能的泛化性规律。在此基础上，他们提出了一套新颖的算法框架——ManiBox，让机器人能够在真实世界中应对多样化的物体位置和复杂的场景布置。

12/30/2024 10:20:00 AM 量子位

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

前几天，OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料，是新的推理系列模型 o3 和 o3-mini 。从 o1 开始，OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI，这项基准已经提出了 5 年时间，但一直未被攻克。

12/30/2024 9:55:00 AM 机器之心

DeepSeek V3“报错家门”：我是ChatGPT

要说这两天大模型圈的顶流话题，那绝对是非DeepSeek V3莫属了。不过在网友们纷纷测试之际，有个bug也成了热议的焦点——只是少了一个问号，DeepSeek V3竟然称自己是ChatGPT。甚至让它讲个笑话，生成的结果也是跟ChatGPT一样：加之DeepSeek V3这次爆火的一个亮点，就是训练只花了557.6万美元的成本。

12/30/2024 9:25:00 AM 量子位

超越ControlNet++！腾讯优图提出动态条件选择新架构

超越ControlNet ，让文生图更可控的新框架来了！腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl，直接将多模态大语言模型（MLLM）的推理能力集成到文本生成图像（T2I)）任务中。而且还提出了一种新颖、高效的多控制适配器，可以自适应地选择不同的条件，从而实现动态多控制对齐。

12/30/2024 8:50:00 AM 量子位

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

四大顶刊之一的《数学年刊》，正式接收北大袁新意独作论文。在困扰数学界多年的Uniform Bogomolov猜想问题上取得重要进展。值得一提的是，这篇论文还在预印版状态时就已获得一定引用，据称还在不同的学术会议中被讨论。

12/30/2024 8:30:00 AM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉