理论

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局，其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。虽然基于 2D MLLM 的 RRG 已经得到充分认可，但其在 3D 医学图像中的实用性仍未得到充分开发。在这方面，台北荣民总医院（Taipei Veterans General Hospital）、台湾阳明交通大学（National Yang Ming Chiao Tung University）以及美国加州大学的研究人员整理了 3D-BrainCT 数据集（18,885 个文本扫描对）并开发了 BrainGPT，这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

3/13/2025 2:23:00 PM ScienceAI

深度调研全球科研人员AI使用现状，威立发布权威报告中文版！

深度调研全球科研人员AI使用现状，威立发布权威报告中文版！

编辑 | ScienceAIAI 浪潮席卷全球，科研领域将迎来怎样的变革与先机？ 2025 年 2 月，全球领先的研究与教育出版机构威立发布了基于对近 5000 名科研人员进行调研的研究报告 ExplanAItions。该报告深入分析了人工智能在科研工作中的应用现状，颇具影响力的应用领域、各群体的使用意愿，以及出版机构如何协助科研人员更好地应用这一快速发展的技术等内容。

3/13/2025 2:21:00 PM ScienceAI

DeepSeek 3FS 架构分析和思考（上篇）

DeepSeek 3FS 架构分析和思考（上篇）

2025 年 2 月28 日，DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System，简称 3FS。该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程，在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。项目一经发布，就获得了存储领域的广泛关注。

3/13/2025 1:51:46 PM 火山引擎存储团队

AI安全的头等大事：建立AI资产清单

AI安全的头等大事：建立AI资产清单

随着人工智能（AI）技术的迅猛发展，企业首席信息安全官（CISOs）正面临前所未有的挑战，既要满足企业业务快速迈向智能化的需求，同时又要防御爆炸式增长的AI安全威胁。风靡全球的DeepSeek只是AI工具潮的一朵浪花，未来还将有更多类似工具快速涌现。这些未经授权的（消费级）AI应用如同一颗颗定时炸弹，潜伏在企业内部，威胁着数据安全与合规性。

3/13/2025 1:38:28 PM 佚名

耗时一年半！谷歌新定义具身通用最强SOTA，轰动硅谷！物理世界的原生推理能力、灵活性让人惊掉下巴！网友：亿些震撼！

耗时一年半！谷歌新定义具身通用最强SOTA，轰动硅谷！物理世界的原生推理能力、灵活性让人惊掉下巴！网友：亿些震撼！

出品 | 51CTO技术栈（微信号：blog51cto）想知道世界SOTA级别的模型用在物理世界中有多震撼吗？ Google DeepMind做了一件破天荒的事情。大模型自爆火以来，已经过去两年多，但在物理世界中真正能转化为机器人行为，还是一个世界级难题。

3/13/2025 1:37:14 PM 云昭

人工智能代理不是玩具，而是工人

人工智能代理不是玩具，而是工人

为什么必须像评估劳动力一样评估LLM代理，而不仅仅是评估软件。如果组织仅通过代码行数或聊天完成度等指标来衡量 AI 代理，则可能会低估其最具变革性的价值。在许多方面，AI 代理更像员工，而不是传统的软件程序：它们可以学习、适应，甚至与人类团队合作。

3/13/2025 1:29:32 PM 佚名

DeepSeek“防弹衣”来了，模型内生安全加固方案，拒绝杀敌一千自损八百｜上海AI Lab

DeepSeek“防弹衣”来了，模型内生安全加固方案，拒绝杀敌一千自损八百｜上海AI Lab

最新研究显示，以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——即便最终拒绝回答，其思考过程仍可能泄露有害内容。现有防御技术深陷两难：要么防不住攻击，要么让模型变成”惊弓之鸟”，连正常问题都拒绝回答。上海交大与上海AI Lab联合推出安全防御方案——X-Boundary，试图破解两难局面。

3/13/2025 1:10:00 PM 量子位

自动调整推理链长度，SCoT来了！为激发推理能力研究还提出了一个新架构

自动调整推理链长度，SCoT来了！为激发推理能力研究还提出了一个新架构

不怕推理模型简单问题过度思考了，能动态调整CoT的新推理范式SCoT来了！ SCoT，即自结构化推理链（Self-structured Chain of Thought ）。它通过将推理过程分解为最小语义原子步骤，能动态生成适配不同复杂度问题的CoT结构，解决了现有方法在推理多样性和效率上的不足。

3/13/2025 1:00:00 PM 量子位

“谷歌版DeepSeek”接入机器人，思维链解锁折纸系鞋带技能，推理模型代入物理世界

“谷歌版DeepSeek”接入机器人，思维链解锁折纸系鞋带技能，推理模型代入物理世界

谷歌把推理大模型带入物理世界，机器人可以一边思考一边动作了!成功解锁折纸、系鞋带这种精细技能。灵活性方面也拉满，能及时根据环境变化改变计划，根本不怕人类捣乱。还可以适应机械臂、人形机器人等不同身体形态。

3/13/2025 12:44:56 PM 量子位

DeepSeek玩家能提前拿苹果新品！只要15万元，在家跑满血版R1

DeepSeek玩家能提前拿苹果新品！只要15万元，在家跑满血版R1

号称地表最强的M3 Ultra，本地跑满血版DeepSeek R1，效果到底如何？其实，有些DeepSeek玩家们已经提前拿到手做过实测了。例如这位Alex老哥就是其中之一：他提前拿到了两台搭载M3 Ultra的Mac Studio，配置是这样的：M3 Ultra（32 核中央处理器、80 核图形处理器和 32 核神经网络引擎）512G统一内存1TB固态硬盘具体来说，Alex老哥用配备Thunderbolt 5互连技术（传输速率为 80Gbps）的EXO Labs设备，来运行完整的DeepSeek R1模型（671B、8-bit）。

3/13/2025 12:41:37 PM 量子位

11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍

11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍

224张GPU，训出开源视频生成新SOTA！ Open-Sora 2.0正式发布。 11B参数规模，性能可直追HunyuanVideo和Step-Video（30B）。

3/13/2025 12:39:22 PM 量子位

RAG（三）GraphRAG进阶：GraphReader-- 基于图的Agent，让大模型“读懂”长文本

RAG（三）GraphRAG进阶：GraphReader-- 基于图的Agent，让大模型“读懂”长文本

上一篇论文介绍了GraphRAG，今天来看一篇算是其进阶版的方法--GraphReader。对于其研究动机，简单来说，LLMs具有强大的规划和反思能力，但在解决复杂任务时，如函数调用或知识图谱问答（KGQA），以及面对需要多次推理步骤的问题时，仍然面临困难。特别是当涉及到长文本或多文档的处理时，现有的方法往往难以充分利用这些模型的能力来捕捉全局信息，并有效地进行决策。

3/13/2025 12:24:34 PM Glodma

大型语言模型是否解决了搜索问题？

大型语言模型是否解决了搜索问题？

译者 | 李睿审校 | 重楼尽管LLM在内容生成方面表现出色，但需要采用语义分块和向量嵌入等技术来解决复杂数据环境中的搜索问题。大型语言模型（LLM）的涌现推动了信息检索和人机交互的范式转变。这些模型在大量的文本语料库上进行训练，并针对预测语言任务进行了优化，在响应查询、总结文本内容和生成上下文相关信息方面展现出了显著成效。

3/13/2025 12:09:27 PM 李睿

RAGFlow自动化脚本套件：自定义解析+回答质量评估+参数自动调优

RAGFlow自动化脚本套件：自定义解析+回答质量评估+参数自动调优

最近 MCP（大模型上下文协议）比较火，花了点时间研究了下和 RAG 的协作架构，后续整理出心得后再发出。言归正传，之前文章里详细介绍了 RAGFlow 的 Python api 用法，今天结合几篇法律法规文档来给大家做个简单演示，抛砖引玉。这篇主要介绍三个脚本示例，分别是：数据处理与系统配置，系统测试，参数优化脚本。

3/13/2025 11:29:03 AM 韦东东

长链推理表象下，大模型精细表征张冠李戴的本质

长链推理表象下，大模型精细表征张冠李戴的本质

近些年，大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始，到 2022 年底的 GPT-3，再到现在国内外大模型的「百模争锋」，DeepSeek 异军突起，各类大模型应用层出不穷。然而，无论在学术界还是在工业界，目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性，而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。

3/13/2025 11:18:14 AM 张拳石、陈鹭

YOLOe问世，实时观察一切，统一开放物体检测和分割

YOLOe问世，实时观察一切，统一开放物体检测和分割

它能像人眼一样，在文本、视觉输入和无提示范式等不同机制下进行检测和分割。自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO（You Only Look Once）以来，这项突破性的目标检测技术就像为机器装上了「闪电之眼」，凭借单次推理的实时性能刷新了计算机视觉的认知边界。传统的 YOLO 系列如同我们人工效准的精密仪器，其识别能力被严格框定在预定义的类别目录之中，每个检测框的背后，都需要工程师手动输入认知词典。

3/13/2025 11:11:04 AM 机器之心

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

大语言模型（LLM）在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力，比如 OpenAI 的 o1 系列。通常来说，这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹，并包含了试图实现某些「算法」的 token：例如反思前一个答案、规划或实现某种形式的线性搜索。这些方法包括显式地微调预训练 LLM 以适应算法行为，例如对搜索数据进行监督微调（SFT）或针对 0/1 正确性奖励运行结果奖励（outcome-reward，OR）RL。

3/13/2025 11:07:30 AM 机器之心

阿里妈妈搜索广告2024大模型思考与实践

阿里妈妈搜索广告2024大模型思考与实践

作者：石士阿里妈妈技术团队一、概览随着大模型时代的到来，搜推广模型是否具备新的进化空间？能否延续像深度学习时期那样迸发旺盛的迭代生命？带着这样的过去，阿里妈妈搜索广告在两年的持续探索中，逐步成功清理了一些关键问题，落地了多个优化方向。

3/13/2025 10:51:00 AM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉