AI在线 AI在线

理论

字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露

就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了此前大火的文字精准渲染能力如何炼成。 报告将豆包文生图模型称为 Seedream 2.0,并明确提到,该模型于去年 12 月初上线到豆包 APP 和即梦平台。 从模型能力看,Seedream 2.0 是原生的中英双语图像生成基础模型,拥有很强的美感和文本渲染效果,与目前即梦上的文生图主力模型特性匹配。
3/12/2025 2:40:53 PM
机器之心

自主式AI爆发前夜,企业如何押注黄金场景?

今年可能是自主式AI大放异彩的一年,许多企业都在寻找增值用例。 一个关键问题:哪些业务流程实际上适合采用自主式AI?商业咨询公司德勤预测,到2025年,在使用GenAI的公司中,有25%将推出自主式AI试点或概念验证,到2027年这一比例将增长到50%。 该公司表示,在某些行业、某些用例中,自主式AI应用可能会在今年被纳入现有工作流程。
3/12/2025 2:25:24 PM
Bob Violino

32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero

Hugging Face的Open R1再度升级! Hugging Face的Open R1是一个社区驱动的项目,目标是创建一个完全开源的DeepSeek-R1版本。 目前,已有模型如OlympicCoder-32B和数据集如codeforces发布,显示了项目的进展。
3/12/2025 1:55:05 PM
新智元

OpenAI旨在通过扩展工具包开发智能体

随着企业对这项技术兴趣的提升,技术供应商纷纷急于推出工具以促进智能体的采用。 云巨头和软件巨头都已参与其中。 谷歌去年12月向企业客户介绍了其Agentspace服务,微软上周扩展了其AI代理产品组合,而AWS则于周一正式推出了AmazonBedrock上的多智能体协作功能。
3/12/2025 1:04:01 PM
Lindsey Wilkinson

使用 VLLM 部署 DeepSeek:基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近,大语言模型(LLM)的部署已经成为 AI 开发者绕不开的核心技能。 而 VLLM 作为一款高性能、低延迟的推理引擎,在大模型推理领域迅速崛起。 今天,我就带大家从零开始,在 Ubuntu 22.04 RTX 4090 Docker 环境下,部署 DeepSeek模型,并让它跑起来!
3/12/2025 12:37:50 PM
写代码的中年人

AI现实动物森友会,NVIDIA携手国际组织助力野生动物保护

编辑丨toileter不久前,世界野生动植物之日方才过去。 在如今世界各地对于野生环境的保护日益重视的发展现状中,利用 AI 来协助人们进行自然环境保护的举措理所当然地成为了更具影响的手段。 在联合国估计超过 100 万个物种面临灭绝威胁之际,这是一项维持生态系统和支持生物多样性的关键工作。
3/12/2025 12:07:00 PM
ScienceAI

Manus逼OpenAI开源智能体框架,网友:已从行业领导者变为跟随者

OpenAI又开源了,这次是一套智能体开发框架。 联网搜索、文件搜索、计算机使用(Computer Use),统统打包,GitHub 8小时上千星。 图片奥特曼认为其中的API是有史以来(并没有限定在OpenAI范围内)设计最完善、最实用的之一。
3/12/2025 11:34:35 AM

10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜

音乐创作,尤其是完整歌曲的生成,一直是人工智能领域的一大挑战。 Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。 但现有开源的音乐生成模型要么只能生成人声或伴奏,要么依赖复杂的多阶段架构,难以扩展到长音频生成。
3/12/2025 10:41:34 AM
新智元

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

大型语言模型(LLMs)目前仍然很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务,有研究工作探索了使用预先构建的外部工具来增强LLMs处理复杂任务的能力,但这些方法需要对模型进行微调或额外训练以实现工具的集成,在不同任务之间难以灵活适应。 现有的方法要么依赖于静态的、预定义的工具集,要么缺乏高效的工具选择和规划机制,这种低效性会导致任务执行出错、计算成本增加,以及在应用于新领域时适应性受限。 传统增强LLMs的方法包括少量样本提示(few-shot prompting)、思维链(chain-of-thought reasoning)以及与外部工具接口的功能调用API;有的框架如LangChain和AutoGen允许LLMs够使用外部资源,但通常智能用于指定应用场景或需要大量的预配置,没有提供一种统一的多步骤规划和执行方法,因此在处理复杂推理问题时效果不佳。
3/12/2025 10:38:05 AM
新智元

DeepSeek 开源的 DualPipe,居然是梁文峰写的,你感性?

继DeepGEMM之后,deepseek开源了第四弹DualPipe。 今天来简单聊聊DualPipe,包懂。 DualPipe是干嘛的?
3/12/2025 10:36:32 AM
架构师之路

OpenAI深夜大招暴打Manus!智能体全家桶杀器一统API,4行代码轻松上手

Manus掀起的智能体风暴,再次逼急了OpenAI。 凌晨,OpenAI突然开启线上直播,正式放出开发者自主构建智能体的大礼包——一个全新API、三个内置工具,以及一个开源SDK。 具体包括:全新Responses API⁠:将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体内置三大工具:网络搜索⁠、文件搜索⁠和计算机使用全新Agents SDK⁠:用于编排单智能体和多智能体工作流程集成可视化工具:用于追踪和检查智能体工作流程执行情况以往,开发者构建一款智能体应用,需要从不同来源拼凑各种底层API。
3/12/2025 10:32:23 AM

X-CLR:通过新型对比损失函数提升图像识别能力

译者 | 刘汪洋审校 | 重楼AI 驱动的图像识别技术正在改变各行各业,从医疗健康和安保,到自动驾驶汽车和零售业。 这些系统能分析海量视觉数据,以惊人的准确度识别模式和物体。 然而,传统图像识别模型面临着不少挑战:它们需要消耗大量计算资源,缺乏良好的扩展性,而且通常难以高效处理大型数据集。
3/12/2025 10:10:21 AM
刘汪洋

快慢双系统!清华&博世最新Chameleon:无需训练即可解决复杂道路拓扑(ICRA'25)

在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。 它要求系统不仅能检测出车道和交通元素(如交通灯、标志),还要理解它们之间的复杂关系。 例如,判断车辆是否可以左转进入某条车道,就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。
3/12/2025 10:07:06 AM
自动驾驶之心

OpenAI深夜发布全新Agent工具:两大杀器登场,感觉可以手搓Manus了

可以自己动手手搓Manus了? 刚刚OpenAI举行了一个19分钟的线上发布会,推出全新Agent工具,OpenAI直接祭出自研Agent SDK和Responses API两大杀器! 旨在彻底简化agent开发流程,让开发者和企业都能轻松构建实用又可靠的智能体!
3/12/2025 10:00:44 AM
AI寒武纪

揭示显式CoT训练机制:思维链如何增强推理泛化能力

基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。
3/12/2025 9:48:19 AM
机器之心

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。 然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。
3/12/2025 9:40:28 AM
机器之心

李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!遥操只需Switch手柄

对人类来说轻而易举的事,对机器人来说很难。 机器人能做家庭管家,照顾好一家人吗? 要做「家庭管家」,机器人真正需要什么技能?
3/12/2025 8:54:46 AM
新智元

被Manus惊到了?OpenAI深夜发布Agent开发三剑客!开源一个新的SDK,现场手搓三个Agent!还抖了一个内部的料

出品 | 51CTO技术栈(微信号:blog51cto)“2025年将是Agent之年,这一年,ChatGPT和我们的开发工具将从仅仅回答问题,转变为真正为你在现实世界中做事。 ”上周Manus通用智能体的发布之后带火了Claude的MCP框架之后,OpenAI终于坐不住了,今天凌晨一点通过直播的形式,一口气把自己内部工程人员在用的Agent开发工具发布了出来。 整体直播不长,只有20分钟,但足以让外界从OpenAI的视角来见识一番以全球最先进的基座模型来做出来的Agent的效果。
3/12/2025 7:56:29 AM