训练

参数量暴降，精度反升！哈工大宾大联手打造点云分析新SOTA

新架构选择用KAN做3D感知，点云分析有了新SOTA！来自哈尔滨工业大学（深圳）和宾夕法尼亚大学的联合团队最近推出了一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案——PointKAN，在处理点云数据的下游任务上展现出巨大的潜力。 △PointKAN与同类产品的比较替代传统的MLP方案，PointKAN具有更强的学习复杂几何特征的能力。

5/19/2025 2:56:45 PM

三金，又是中国队！全球机器人视触融合挑战赛揭榜

今天，机器人和自动化领域的全球顶级会议ICRA 2025在亚特兰大正式拉开帷幕。不久前，机器人领域的顶级赛事——ManiSkill-ViTac 2025也公布了获奖团队名单。 5月23日，ManiSkill-ViTac 2025的成果将在ICRA 2025第六届ViTac国际研讨会中集中汇报。

5/19/2025 2:55:41 PM

阿里通义实验室推出 ZeroSearch：让大模型无需 API 自我 “搜索”

在人工智能的迅速发展中，如何提升大语言模型（LLM）的检索和推理能力成为研究的热门话题。近日，阿里通义实验室提出了一个名为 “ZeroSearch” 的新框架，它能够使大型语言模型自己模拟搜索引擎，从而在没有实际搜索引擎的情况下，提升其推理能力。传统的搜索引擎虽然强大，但在训练大模型时，它们的输出质量常常不可预测，可能导致训练过程中的噪声和不稳定。

5/19/2025 11:01:05 AM

AI在线

字节发布 Seed1.5-VL 视觉-语言多模态大模型，20B 参数狂揽 60 项公开评测基准中 38 项 SOTA！

5 月 13 日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了 5 款模型和产品，包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。今天给大家介绍的是Seed 1.5-VL，相比于之前版本，Seed1.5-VL 具备更强的通用多模态理解和推理能力，不仅视觉定位和推理更快更准，还新增了视频理解、多模态智能体能力。

5/19/2025 9:07:00 AM

Nous Research推出Psyche去中心化网络，开启全民参与AI开发新纪元

Nous Research宣布正式推出Psyche，一个基于Solana区块链的去中心化AI训练网络，旨在让全球用户通过闲置计算资源参与尖端AI模型的开发。这一平台利用DisTrO技术大幅降低带宽需求，成功启动了有史以来规模最大的互联网分布式训练，目标是训练一个40亿参数的AI模型，并将所有数据和检查点完全开源。 AIbase深入剖析Psyche的核心技术与愿景，揭示其对AI民主化的深远影响。

5/16/2025 12:00:55 PM

AI在线

个人开发者训400亿参数大模型：分布式算力，DeepSeek架构，3090单卡部署

打破科技巨头算力垄断，个人开发者联手也能训练超大规模AI模型？ Nous Research宣布推出Psyche Network，可以将全球算力整合起来训练强大的人工智能。 Psyche是一个基于Deepseek的V3 MLA架构的去中心化训练网络，测试网首次启动时直接对40B参数LLM进行预训练，可以在单个H/DGX上训练，并在3090 GPU上运行。

5/16/2025 9:06:00 AM

梁文锋署名DeepSeek新论文：公开V3大模型降本方法

梁文锋亲自参与的DeepSeek最新论文，来了！这一次，团队把DeepSeek-V3在训练和推理过程中，如何解决“硬件瓶颈”的方法公布了出来。具体而言，DeepSeek-V3之所以可以只用2048块H800，就能达到超大规模集群（如数万块GPU）相当的训练效果，核心在于四项创新技术：内存优化多头潜在注意力（MLA）计算优化混合专家模型（MoE）与FP8低精度训练通信优化多层网络拓扑与低延迟设计推理加速多token预测（MTP）那么这四项优化具体又是如何起到作用的，我们继续往下看。

5/16/2025 9:02:00 AM

Soundcloud 新规:用户可选择退出 AI 模型训练，但数据使用疑云仍在

音乐平台 Soundcloud 近日更新了其使用条款，明确规定“未经您的明确同意，我们不会使用您的内容来训练旨在复制或合成您的声音、音乐或肖像的生成式 AI 模型，而您的同意必须通过选择加入机制明确提供。 ” 这项于2025年5月11日由 Soundcloud 传播主管 Marni Greenberg 向 The Verge 证实的新政策，似乎旨在回应用户对其上传内容被用于人工智能（AI）训练的担忧，并承诺未来若内容被用于生成式 AI，将提供明确的退出选项和透明度。此前，Soundcloud 在2024年2月更改了其使用条款，允许将上传的音乐用于 AI 训练，但并未明确告知用户。

5/16/2025 9:00:30 AM

AI在线

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

vivo自研大模型用的数据筛选方法，公开了。香港科技大学和vivo AI Lab联名提出PreSelect，目前已被ICML 2025接收。这是一种轻量级且高效的数据选择方法：只需要训练和部署一个基于fastText的评分器，就可以减少10倍的计算需求。

5/15/2025 1:40:13 PM

字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

5 月 13 日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了 5 款模型和产品，包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。其中，全场最吸睛的就是豆包 1.5・视觉深度思考模型（以下称 Seed 1.5-VL）。

5/14/2025 3:05:21 PM

首个，专攻点云上下文学习自适应采样！支持点级、提示级｜CVPR 2025

3D点云处理（PCP）涉及多种任务，如分割、去噪、配准、重建等，传统方法通常是为每个任务设计专用模型，导致过程繁杂、成本高昂。虽然多任务学习（MTL）能缓解模型数量问题，但在任务冲突、参数调优方面仍存在挑战。近年来兴起的In-Context Learning（ICL，上下文学习）技术，是指大型语言模型在不进行显式参数更新的情况下，仅通过输入中的示例（即上下文信息）来完成新的任务。

5/14/2025 3:03:45 PM

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

Qwen3技术报告新鲜出炉，8款模型背后的关键技术被揭晓！采用了双模式架构，一个模型同时支持推理和非推理任务，根据需要自动切换。训练和微调过程采取分段式策略，逐步构建模型能力。

5/14/2025 1:22:08 PM

量子位

首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

在多模态大模型快速发展的当下，如何精准评估其生成内容的质量，正成为多模态大模型与人类偏好对齐的核心挑战。然而，当前主流多模态奖励模型往往只能直接给出评分决策，或仅具备浅层推理能力，缺乏对复杂奖励任务的深入理解与解释能力，在高复杂度场景中常出现 “失真失准”。那么，奖励模型是否也能具备像人类一样的深度思考能力？

5/14/2025 8:51:00 AM

突破大模型推理瓶颈！首篇「Test-Time Scaling」全景综述，深入剖析AI深思之道

本文由来自香港城市大学、麦吉尔大学（McGill）、蒙特利尔人工智能实验室（MILA）、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。第一作者为来自香港城市大学的博士生张启源和来自蒙特利尔人工智能实验室（MILA）的博士生吕福源。当训练成本飙升、数据枯竭，如何继续激发大模型潜能？

5/13/2025 3:13:28 PM

机器之心

全球闲置算力训个模型，性能媲美R1，老黄天塌了！Karpathy曾投资它

一夜之间，老黄天塌了（doge）。全球首个分布式RL训练模型INTELLECT-2发布，它仅通过整合全球闲置或分散的计算资源，就完成了模型的强化学习训练，训练成本大大降低。其模型性能与DeepSeek-R1媲美！

5/13/2025 1:51:20 PM

AI训练的反直觉发现：添加"有毒"数据反而能造就更好的语言模型？

"当坏数据能够创造出好模型，AI训练领域又一个传统观念被颠覆"你有没有听说过这样一个说法：垃圾进，垃圾出？在AI大语言模型的训练中，这一直是个不言自明的准则。工程师们花费大量时间和资源过滤训练数据，移除那些含有有毒、有害或不适当内容的文本，以防止模型学习和生成这些内容。

5/13/2025 2:22:00 AM

无影寺

苹果放大招！FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”

苹果最近又搞了个大新闻，偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵，但简单来说，这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”，不仅能看懂图片里的各种复杂信息，还能像个段子手一样跟你“贫嘴”!而且最厉害的是，它速度快到飞起，苹果官方宣称，首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!视觉语言模型的 “成长烦恼”现在的视觉语言模型，就像个不断进化的小天才，能同时理解图像和文本信息。它的应用可广了，从帮咱们理解图片里的内容，到辅助创作图文并茂的作品，都不在话下。

5/12/2025 3:00:52 PM

AI在线

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce ）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。

5/12/2025 2:23:42 PM

资讯热榜

智谱AI全新企业级超级助手Agent CoCo正式上线苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能豆包App“一句话P图”功能全新升级基于SeedEdit 3.0实现全面优化 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ ChatGPT 语音功能升级，实时翻译对话更自然流畅支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟苹果向开发者开放本地AI能力，推出全新Foundation Models框架

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊