训练
字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。 同时,Data Agent 和 Trae 等产品也有了新进展。 其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5-VL)。
5/14/2025 3:05:21 PM
首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025
3D点云处理(PCP)涉及多种任务,如分割、去噪、配准、重建等,传统方法通常是为每个任务设计专用模型,导致过程繁杂、成本高昂。 虽然多任务学习(MTL)能缓解模型数量问题,但在任务冲突、参数调优方面仍存在挑战。 近年来兴起的In-Context Learning(ICL,上下文学习)技术,是指大型语言模型在不进行显式参数更新的情况下,仅通过输入中的示例(即上下文信息)来完成新的任务。
5/14/2025 3:03:45 PM
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓! 采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。 训练和微调过程采取分段式策略,逐步构建模型能力。
5/14/2025 1:22:08 PM
量子位
首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源
在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。 然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。 那么,奖励模型是否也能具备像人类一样的深度思考能力?
5/14/2025 8:51:00 AM
突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道
本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。 第一作者为来自香港城市大学的博士生张启源和来自蒙特利尔人工智能实验室(MILA)的博士生吕福源。 当训练成本飙升、数据枯竭,如何继续激发大模型潜能?
5/13/2025 3:13:28 PM
机器之心
全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它
一夜之间,老黄天塌了(doge)。 全球首个分布式RL训练模型INTELLECT-2发布,它仅通过整合全球闲置或分散的计算资源,就完成了模型的强化学习训练,训练成本大大降低。 其模型性能与DeepSeek-R1媲美!
5/13/2025 1:51:20 PM
AI训练的反直觉发现:添加"有毒"数据反而能造就更好的语言模型?
"当坏数据能够创造出好模型,AI训练领域又一个传统观念被颠覆"你有没有听说过这样一个说法:垃圾进,垃圾出? 在AI大语言模型的训练中,这一直是个不言自明的准则。 工程师们花费大量时间和资源过滤训练数据,移除那些含有有毒、有害或不适当内容的文本,以防止模型学习和生成这些内容。
5/13/2025 2:22:00 AM
无影寺
苹果放大招!FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”
苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。 听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!视觉语言模型的 “成长烦恼”现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。 它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。
5/12/2025 3:00:52 PM
AI在线
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。 尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce )用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚至直接崩掉。
5/12/2025 2:23:42 PM
ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot,让表情包、动漫人物、玩具等“开口说话”
今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限,FaceShot 的动画效果可应用于各个领域的角色,包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。 每个角色都能流畅地跟随行车视频的面部动作,同时保留其原始身份,从而产生出色的动画效果。 FaceShot 的可视化结果。
5/12/2025 9:28:00 AM
AIGC Studio
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。
5/12/2025 8:50:00 AM
AI学会“自我谷歌”!!阿里ZeroSearch技术不靠搜索引擎照样学得飞起,成本还降了88%?
想象一下,如果AI不再依赖谷歌搜索、Bing搜索这些“外包助手”,而是自带“搜索引擎大脑”自我检索、自我学习,结果表现还更优秀——你是不是觉得这听起来像是《黑客帝国》第二集?但阿里真的做到了!这不只是一次技术突破,更像是一次“AI自给自足革命”的打响第一枪。 ZeroSearch 的出现,可能正悄悄改变我们构建智能系统的底层逻辑。 01|告别谷歌,AI开始“自我检索”“用强化学习训练一个AI助手,光是搜索费用就能掏空初创公司的预算。
5/9/2025 3:00:51 PM
AI在线
成本降低88%:阿里巴巴ZeroSearch技术颠覆AI训练模式
阿里巴巴集团研究人员近日推出一项名为"ZeroSearch"的突破性技术,彻底改变了训练人工智能系统搜索信息的方式。 这项创新技术通过模拟方法让大型语言模型(LLM)开发高级搜索功能,无需在训练过程中与真实搜索引擎交互,从而消除了对昂贵商业搜索引擎API的依赖。 解决成本与复杂性难题ZeroSearch解决了AI行业面临的两大关键挑战:搜索引擎返回文档质量的不可预测性,以及向谷歌等商业搜索引擎进行数十万次API调用所产生的高昂成本。
5/9/2025 10:01:50 AM
AI在线
阿里巴巴开源 ZeroSearch 搜索引擎:训练成本大幅降低 80%
近日,阿里巴巴推出了一款名为 ZeroSearch 的开源创新大模型搜索引擎,这一新工具通过强化学习框架,极大地提高了搜索能力,并且在训练过程中不需要与真实搜索引擎互动。 ZeroSearch 的核心优势在于它能够利用大型预训练模型的知识,快速生成相关内容,并且可以动态控制生成内容的质量。 与传统的搜索引擎相比,ZeroSearch 的训练成本显著降低。
5/9/2025 9:00:59 AM
AI在线
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
不用动作捕捉,只用一段视频就能教会机器人学会人类动作,效果be like:UC伯克利团队研发出了一套新的机器人训练系统,可将视频动作迁移到真实机器人。 这个名为VideoMimic的新系统,已经让宇树G1机器人成功模仿了100多段人类动作。 VideoMimic的核心原理是从视频当中提取姿态和点云数据,然后在模拟环境中训练并最终迁移到实体机器人。
5/9/2025 8:50:00 AM
腾讯助力DeepSeek:网络通信性能大幅提升,AI训练更高效
近日,腾讯技术团队对 DeepSeek 开源的 DeepEP 通信框架进行了深度优化,显著提升了其在多种网络环境下的性能。 经过测试,优化后的通信框架在 RoCE 网络环境下的性能提升达到了惊人的100%,而在 IB 网络环境中则提升了30%。 这一成果不仅为企业的 AI 大模型训练提供了更高效的解决方案,还为相关技术的进一步发展奠定了基础。
5/8/2025 7:00:46 PM
AI在线
Fastino 融资 1750 万美元,利用廉价游戏 GPU 训练 AI 模型
在当今科技行业,AI(人工智能)正迅速崛起,许多巨头公司都在大谈特谈拥有万亿参数的 AI 模型,这些模型通常需要耗费巨资搭建庞大的 GPU 集群。 然而,Fastino 却走了一条不同的道路,利用成本低廉的游戏 GPU 进行 AI 模型训练,并成功获得了由 Khosla Ventures 领投的1750万美元融资。 这一创新的方式使得 Fastino 能够在资源有限的情况下,实现高效的 AI 模型开发。
5/8/2025 12:01:07 PM
AI在线
开源即屠榜!UniME多模态框架登顶MMEB全球训练榜,刷新多项SOTA纪录
告别CLIP痛点,更懂语义关联的跨模态理解新SOTA来了! 格灵深瞳、阿里ModelScope团队,以及通义实验室机器智能团队联合发布通用多模态嵌入新框架UniME,一经推出就刷新MMEB训练榜纪录。 △图片于2025年5月6日08:00 UTC 8截取UniME作为一个创新性的两阶段框架,所展现的卓越的组合理解力,帮助MLLMs具备学习适用于各种下游任务的判别性表征的能力,并在多个任务中达到了新的SOTA。
5/8/2025 9:31:50 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用