数据

CPO薪资倒挂CEO，创业公司薪酬情况大起底

初创公司里，平均薪酬最高的不是CEO？你还真别说，事实上，CEO薪酬不仅远远落后CPO（首席产品官，Chief Product Officer）。甚至COO（首席运营官，Chief Operating Officer）、CTO（首席技术官，Chief Technology Officer）都比CEO要高。

12/30/2024 8:10:00 AM 量子位

RoboMIND：国家地方共建具身智能机器人创新中心与北京大学计算机学院联合创建的具身智能数据集和Benchmark

获取论文全部内容：文章链接：：，具身智能产业迅猛发展，赋予机器人类人化的泛化能力是具身智能机器人技术的核心目标之一，实现这一目标的关键在于如何使各类机器人本体在面对多样化的环境和任务时，能够展现出卓越的性能。正如ChatGPT需要海量文本数据来训练一样，想要培养出一个能力全面的机器人，也需要大量优质的训练数据，数据集是具身智能技术发展的重要基石。与视觉或语言数据的获取相比，收集机器人训练数据远比收集文本或图像数据困难得多，需要在专门的环境中记录机器人的每个关节动作和末端执行器的信息，这个过程不仅需要昂贵的硬件设备，还需投入大量人力来确保数据质量，因而业内目前最具通用性的机器人操作策略主要依赖于在有限多样性条件下收集的数据，大规模多构型具身智能数据集和Benchmark是极为稀缺的资源。

12/27/2024 2:53:00 PM 新闻助手

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

视频生成模型卷得热火朝天，配套的视频评价标准自然也不能落后。现在，北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench，相关代码与预训练权重均已开源。它重点关注了AI视频编辑中最常见的一个场景：视频编辑前后结果与原始视频之间的联系。

12/27/2024 12:36:27 PM 量子位

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

论文信息论文题目：LiON: Learning Point-wise Abstaining Penalty for LiDAR Outlier DetectioN Using Diverse Synthetic Data论文发表单位：清华大学, 厦门大学，滴滴出行, 香港中文大学-深圳论文地址：：。然而，由于点云不像图像那样具有丰富的语义信息，在点云中这个识别异常点是一项极具挑战性的任务。本工作从两个方面缓解了点云缺乏语义信息对异常点感知的影响：1) 提出了一种新的学习范式，使模型能够学习更鲁棒的点云表征，增强点与点之间的辨别性；2) 借助额外的数据源，ShapeNet，提出了一套可以生成多样且真实伪异常的方法。

12/27/2024 10:00:00 AM 自动驾驶之心

Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3，每秒处理 60 个 token，比 V2 快 3 倍！ MoE架构,6710 亿参数，激活 370 亿参数，训练基于 14.8 万亿高质量 token，完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法，将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式，显著提高了 DeepSeek-V3 的推理性能，同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化，有效克服了跨节点 MoE 训练中的通信瓶颈，使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上，DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测（MTP）目标，不仅提升模型性能，还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时，就完成了对 14.8 万亿 token 的预训练。

12/27/2024 9:50:00 AM AI寒武纪

「数字孪生」东京上线！Jim Fan：具身智能零样本迁移现实世界，共享「蜂群思维」

东京高分辨率点云3D数字孪生模型现已公开发布！任何人都可以免费下载。项目地址：，而且它对东京的刻画也非常之精细——其绝对位置精度大约在10cm以内。

12/26/2024 4:30:00 PM 新智元

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

时隔6年，一度被认为濒死的“BERT”杀回来了——更现代的ModernBERT问世，更快、更准、上下文更长，发布即开源！去年一张“大语言模型进化树”动图在学术圈疯转，decoder-only枝繁叶茂，而曾经盛极一时的encoder-only却似乎走向没落。 ModernBERT作者Jeremy Howard却说：encoder-only被低估了。

12/24/2024 3:30:00 PM 量子位

LeCun最新访谈：距离AGI可能不到10年，下一代AI需要情感和视觉训练

头戴Meta爆火智能眼镜，LeCun再次表示人类距离AGI的时间没有那么近，“大约在5-10年”，对语言模型发展的判断更是不乐观。未来在哪？还是得看世界模型。

12/24/2024 3:07:18 PM 量子位

行人、车辆、动物等ReID最新综述！武大等全面总结Transformer方法

目标重识别（Object Re-identification，简称Re-ID）旨在跨不同时间和场景识别特定对象。近年来，基于Transformer的Re-ID改变了该领域长期由卷积神经网络（CNN）主导的格局，不断刷新性能记录，取得重大突破。与以往基于CNN与有限目标类型的Re-ID综述不同，来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于Transformer在Re-ID中日益增长的应用研究，深入分析Transformer的优势所在，总结了Transformer在四个广泛研究的Re-ID方向上的应用，同时将动物加入Re-ID目标类型，揭示Transformer架构在动物Re-ID应用的巨大潜力。

12/24/2024 1:01:12 PM 新智元

扒一扒o3-mini背后团队：3位华人核心成员，北大清华南开校友在列

比o1 mini性能更强，价格更低，性价比新王o3-mini再次引爆AI圈热议。在官方截图中，中等o3-mini的性能和o1 mini差不多，价格却只有后者的一半，整体延迟也和GPT-4o相当。最主要的，这表明了OpenAI可以在降低成本的同时提高性能。

12/23/2024 3:00:00 PM 量子位

o3并非独门秘技，谷歌已发背后关键机制，方法更简单、成本更低

o1/o3带火的推理计算Scaling，原来谷歌早在今年8月就曾探讨过。当时，来自斯坦福、牛津以及谷歌DeepMind的团队提出通过重复采样来扩展推理计算量——结果在编码任务中将性能最多提高40%。他们发现小模型通过生成多种答案/样本，其任务表现可能比一些大型模型单次尝试还要好。

12/23/2024 2:30:00 PM 量子位

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

继视觉和听觉之后，AI已经进化到拥有嗅觉了？？你没听错，这是来自Osmo公司的最新技术，它们刚刚首次实现了由AI生成的李子味道。

12/20/2024 3:20:00 PM 量子位

智源发布FlagEval「百模」评测结果，丈量模型生态变局

2024 年 12 月 19 日，智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年 5 月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

12/20/2024 1:20:00 PM 机器之心

Meta斯坦福全新多模态Apollo，60分钟视频轻松理解！7B性能超越30B

虽然语言和图像语言建模进展迅速，但视频多模态大模型（LMM）却难以望其项背。近日，Meta和斯坦福大学的团队联手，从评估基准、模型设计到开源模型, 做出了全方位的探索，创建ApolloBench用于解决视频理解领域评估效率低下的问题, 提出了模型设计的拓展一致性，发现了驱动LMM性能的关键因素，开源了Apollo模型。值得注意的是，Apollo-3B超越了几乎所有的7B模型，而Apollo-7B变体则是7B模型中目前最佳的。

12/20/2024 12:30:00 PM 新智元

突发！GPT论文一作Alec Radford离职，前两代GPT作者全部离开OpenAI

OpenAI又跑了一名大神！ The Information消息，初代GPT论文第一作者Alec Radford也要离开OpenAI，转向独立研究。据了解， Alec于2016年加入OpenAI，从初代GPT到GPT-4o的论文中全都有他的名字，其中前两代还是第一作者。

12/20/2024 11:41:52 AM 量子位

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

可控视频生成，对于自动驾驶技术而言，同样非常重要。比如，生成高质量、长时间且可控的高质量街景视频，可以满足开发自动驾驶应用的数据缺口。现在，香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋：推出MagicDriveDiT，重新定义自动驾驶视频生成的标准。

12/20/2024 9:30:00 AM 量子位

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

提速8倍！速度更快、效果更好的混元视频模型——FastHunyuan来了！新模型仅用1分钟就能生成5秒长的视频，比之前提速8倍，步骤也从50步减少到了6步，甚至画面细节也更逼真了。

12/20/2024 9:00:00 AM 量子位

更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘

具备原生中文理解能力，还兼容Stable Diffusion生态。最新模型结构Bridge Diffusion Model来了。与Dreambooth模型结合，它生成的穿中式婚礼礼服的歪国明星长这样。

12/19/2024 9:30:00 AM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉