数据
北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25
视频生成模型卷得热火朝天,配套的视频评价标准自然也不能落后。 现在,北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,相关代码与预训练权重均已开源。 它重点关注了AI视频编辑中最常见的一个场景:视频编辑前后结果与原始视频之间的联系。
12/27/2024 12:36:27 PM
量子位
AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA
论文信息论文题目:LiON: Learning Point-wise Abstaining Penalty for LiDAR Outlier DetectioN Using Diverse Synthetic Data论文发表单位:清华大学, 厦门大学,滴滴出行, 香港中文大学-深圳论文地址::。 然而,由于点云不像图像那样具有丰富的语义信息,在点云中这个识别异常点是一项极具挑战性的任务。 本工作从两个方面缓解了点云缺乏语义信息对异常点感知的影响:1) 提出了一种新的学习范式,使模型能够学习更鲁棒的点云表征,增强点与点之间的辨别性;2) 借助额外的数据源,ShapeNet,提出了一套可以生成多样且真实伪异常的方法。
12/27/2024 10:00:00 AM
自动驾驶之心
Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍! MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。 该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。
12/27/2024 9:50:00 AM
AI寒武纪
「数字孪生」东京上线!Jim Fan:具身智能零样本迁移现实世界,共享「蜂群思维」
东京高分辨率点云3D数字孪生模型现已公开发布! 任何人都可以免费下载。 项目地址:,而且它对东京的刻画也非常之精细——其绝对位置精度大约在10cm以内。
12/26/2024 4:30:00 PM
新智元
时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文
时隔6年,一度被认为濒死的“BERT”杀回来了——更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源! 去年一张“大语言模型进化树”动图在学术圈疯转,decoder-only枝繁叶茂,而曾经盛极一时的encoder-only却似乎走向没落。 ModernBERT作者Jeremy Howard却说:encoder-only被低估了。
12/24/2024 3:30:00 PM
量子位
LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练
头戴Meta爆火智能眼镜,LeCun再次表示人类距离AGI的时间没有那么近,“大约在5-10年”,对语言模型发展的判断更是不乐观。 未来在哪? 还是得看世界模型。
12/24/2024 3:07:18 PM
量子位
行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法
目标重识别(Object Re-identification,简称Re-ID)旨在跨不同时间和场景识别特定对象。 近年来,基于Transformer的Re-ID改变了该领域长期由卷积神经网络(CNN)主导的格局,不断刷新性能记录,取得重大突破。 与以往基于CNN与有限目标类型的Re-ID综述不同,来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于Transformer在Re-ID中日益增长的应用研究,深入分析Transformer的优势所在,总结了Transformer在四个广泛研究的Re-ID方向上的应用,同时将动物加入Re-ID目标类型,揭示Transformer架构在动物Re-ID应用的巨大潜力。
12/24/2024 1:01:12 PM
新智元
扒一扒o3-mini背后团队:3位华人核心成员,北大清华南开校友在列
比o1 mini性能更强,价格更低,性价比新王o3-mini再次引爆AI圈热议。 在官方截图中,中等o3-mini的性能和o1 mini差不多,价格却只有后者的一半,整体延迟也和GPT-4o相当。 最主要的,这表明了OpenAI可以在降低成本的同时提高性能。
12/23/2024 3:00:00 PM
量子位
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
o1/o3带火的推理计算Scaling,原来谷歌早在今年8月就曾探讨过。 当时,来自斯坦福、牛津以及谷歌DeepMind的团队提出通过重复采样来扩展推理计算量——结果在编码任务中将性能最多提高40%。 他们发现小模型通过生成多种答案/样本,其任务表现可能比一些大型模型单次尝试还要好。
12/23/2024 2:30:00 PM
量子位
AI能传递气味了!能定制个性化气味,谷歌前研究员新技术
继视觉和听觉之后,AI已经进化到拥有嗅觉了? ? 你没听错,这是来自Osmo公司的最新技术,它们刚刚首次实现了由AI生成的李子味道。
12/20/2024 3:20:00 PM
量子位
智源发布FlagEval「百模」评测结果,丈量模型生态变局
2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。
12/20/2024 1:20:00 PM
机器之心
Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B
虽然语言和图像语言建模进展迅速,但视频多模态大模型(LMM)却难以望其项背。 近日,Meta和斯坦福大学的团队联手,从评估基准、模型设计到开源模型, 做出了全方位的探索,创建ApolloBench用于解决视频理解领域评估效率低下的问题, 提出了模型设计的拓展一致性,发现了驱动LMM性能的关键因素,开源了Apollo模型。 值得注意的是,Apollo-3B超越了几乎所有的7B模型,而Apollo-7B变体则是7B模型中目前最佳的。
12/20/2024 12:30:00 PM
新智元
突发!GPT论文一作Alec Radford离职,前两代GPT作者全部离开OpenAI
OpenAI又跑了一名大神! The Information消息,初代GPT论文第一作者Alec Radford也要离开OpenAI,转向独立研究。 据了解, Alec于2016年加入OpenAI,从初代GPT到GPT-4o的论文中全都有他的名字,其中前两代还是第一作者。
12/20/2024 11:41:52 AM
量子位
突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT
可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。
12/20/2024 9:30:00 AM
量子位
腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频
提速8倍! 速度更快、效果更好的混元视频模型——FastHunyuan来了! 新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。
12/20/2024 9:00:00 AM
量子位
更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘
具备原生中文理解能力,还兼容Stable Diffusion生态。 最新模型结构Bridge Diffusion Model来了。 与Dreambooth模型结合,它生成的穿中式婚礼礼服的歪国明星长这样。
12/19/2024 9:30:00 AM
量子位
万物皆可高斯!清华最新GaussianAD:以高斯为中心的端到端自动驾驶,完爆当前SOTA!
写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。 大多数现有方法采用密集表示(如鸟瞰图)或稀疏表示(如实例框)进行决策,这会在全面性和效率之间进行权衡。 本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯来广泛而稀疏地描述场景。
12/18/2024 10:30:00 AM
Wenzhao Zheng等
Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!
写在前面 & 笔者的个人理解西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。 近期生成 重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。 先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。
12/18/2024 9:34:13 AM
Dongxu Wei等
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind