理论
科学家构建多模态LLM框架,进行3D脑CT放射学报告生成
编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。 虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。 在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。
深度调研全球科研人员AI使用现状,威立发布权威报告中文版!
编辑 | ScienceAIAI 浪潮席卷全球,科研领域将迎来怎样的变革与先机? 2025 年 2 月,全球领先的研究与教育出版机构威立发布了基于对近 5000 名科研人员进行调研的研究报告 ExplanAItions。 该报告深入分析了人工智能在科研工作中的应用现状,颇具影响力的应用领域、各群体的使用意愿,以及出版机构如何协助科研人员更好地应用这一快速发展的技术等内容。
DeepSeek 3FS 架构分析和思考(上篇)
2025 年 2 月28 日,DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System,简称 3FS。 该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程,在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。 项目一经发布,就获得了存储领域的广泛关注。
AI安全的头等大事:建立AI资产清单
随着人工智能(AI)技术的迅猛发展,企业首席信息安全官(CISOs)正面临前所未有的挑战,既要满足企业业务快速迈向智能化的需求,同时又要防御爆炸式增长的AI安全威胁。 风靡全球的DeepSeek只是AI工具潮的一朵浪花,未来还将有更多类似工具快速涌现。 这些未经授权的(消费级)AI应用如同一颗颗定时炸弹,潜伏在企业内部,威胁着数据安全与合规性。
耗时一年半!谷歌新定义具身通用最强SOTA,轰动硅谷!物理世界的原生推理能力、灵活性让人惊掉下巴!网友:亿些震撼!
出品 | 51CTO技术栈(微信号:blog51cto)想知道世界SOTA级别的模型用在物理世界中有多震撼吗? Google DeepMind做了一件破天荒的事情。 大模型自爆火以来,已经过去两年多,但在物理世界中真正能转化为机器人行为,还是一个世界级难题。
人工智能代理不是玩具,而是工人
为什么必须像评估劳动力一样评估LLM代理,而不仅仅是评估软件。 如果组织仅通过代码行数或聊天完成度等指标来衡量 AI 代理,则可能会低估其最具变革性的价值。 在许多方面,AI 代理更像员工,而不是传统的软件程序:它们可以学习、适应,甚至与人类团队合作。
DeepSeek“防弹衣”来了,模型内生安全加固方案,拒绝杀敌一千自损八百|上海AI Lab
最新研究显示,以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——即便最终拒绝回答,其思考过程仍可能泄露有害内容。 现有防御技术深陷两难:要么防不住攻击,要么让模型变成”惊弓之鸟”,连正常问题都拒绝回答。 上海交大与上海AI Lab联合推出安全防御方案——X-Boundary,试图破解两难局面。
自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构
不怕推理模型简单问题过度思考了,能动态调整CoT的新推理范式SCoT来了! SCoT,即自结构化推理链(Self-structured Chain of Thought )。 它通过将推理过程分解为最小语义原子步骤,能动态生成适配不同复杂度问题的CoT结构,解决了现有方法在推理多样性和效率上的不足。
“谷歌版DeepSeek”接入机器人,思维链解锁折纸系鞋带技能,推理模型代入物理世界
谷歌把推理大模型带入物理世界,机器人可以一边思考一边动作了!成功解锁折纸、系鞋带这种精细技能。 灵活性方面也拉满,能及时根据环境变化改变计划,根本不怕人类捣乱。 还可以适应机械臂、人形机器人等不同身体形态。
DeepSeek玩家能提前拿苹果新品!只要15万元,在家跑满血版R1
号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何? 其实,有些DeepSeek玩家们已经提前拿到手做过实测了。 例如这位Alex老哥就是其中之一:他提前拿到了两台搭载M3 Ultra的Mac Studio,配置是这样的:M3 Ultra(32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)512G统一内存1TB固态硬盘具体来说,Alex老哥用配备Thunderbolt 5互连技术(传输速率为 80Gbps)的EXO Labs设备,来运行完整的DeepSeek R1模型(671B、8-bit)。
11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍
224张GPU,训出开源视频生成新SOTA! Open-Sora 2.0正式发布。 11B参数规模,性能可直追HunyuanVideo和Step-Video(30B)。
RAG(三)GraphRAG进阶:GraphReader-- 基于图的Agent,让大模型“读懂”长文本
上一篇论文介绍了GraphRAG,今天来看一篇算是其进阶版的方法--GraphReader。 对于其研究动机,简单来说,LLMs具有强大的规划和反思能力,但在解决复杂任务时,如函数调用或知识图谱问答(KGQA),以及面对需要多次推理步骤的问题时,仍然面临困难。 特别是当涉及到长文本或多文档的处理时,现有的方法往往难以充分利用这些模型的能力来捕捉全局信息,并有效地进行决策。
大型语言模型是否解决了搜索问题?
译者 | 李睿审校 | 重楼尽管LLM在内容生成方面表现出色,但需要采用语义分块和向量嵌入等技术来解决复杂数据环境中的搜索问题。 大型语言模型(LLM)的涌现推动了信息检索和人机交互的范式转变。 这些模型在大量的文本语料库上进行训练,并针对预测语言任务进行了优化,在响应查询、总结文本内容和生成上下文相关信息方面展现出了显著成效。
RAGFlow自动化脚本套件:自定义解析+回答质量评估+参数自动调优
最近 MCP(大模型上下文协议)比较火,花了点时间研究了下和 RAG 的协作架构,后续整理出心得后再发出。 言归正传,之前文章里详细介绍了 RAGFlow 的 Python api 用法,今天结合几篇法律法规文档来给大家做个简单演示,抛砖引玉。 这篇主要介绍三个脚本示例,分别是:数据处理与系统配置,系统测试,参数优化脚本。
长链推理表象下,大模型精细表征张冠李戴的本质
近些年,大模型的发展可谓是繁花似锦、烈火烹油。 从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。 然而,无论在学术界还是在工业界,目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性,而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。
YOLOe问世,实时观察一切,统一开放物体检测和分割
它能像人眼一样,在文本、视觉输入和无提示范式等不同机制下进行检测和分割。 自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO(You Only Look Once)以来,这项突破性的目标检测技术就像为机器装上了「闪电之眼」,凭借单次推理的实时性能刷新了计算机视觉的认知边界。 传统的 YOLO 系列如同我们人工效准的精密仪器,其识别能力被严格框定在预定义的类别目录之中,每个检测框的背后,都需要工程师手动输入认知词典。
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场
大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹,并包含了试图实现某些「算法」的 token:例如反思前一个答案、规划或实现某种形式的线性搜索。 这些方法包括显式地微调预训练 LLM 以适应算法行为,例如对搜索数据进行监督微调(SFT)或针对 0/1 正确性奖励运行结果奖励(outcome-reward,OR)RL。
阿里妈妈搜索广告2024大模型思考与实践
作者:石士阿里妈妈技术团队一、概览随着大模型时代的到来,搜推广模型是否具备新的进化空间? 能否延续像深度学习时期那样迸发旺盛的迭代生命? 带着这样的过去,阿里妈妈搜索广告在两年的持续探索中,逐步成功清理了一些关键问题,落地了多个优化方向。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉