AI在线 AI在线

多模态模型

小而强!微软发布小型模型LLaVA-Rad,实现精准放射学报告生成

小而强!微软发布小型模型LLaVA-Rad,实现精准放射学报告生成

近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。 该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。 在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答和放射学报告生成等任务。
2/10/2025 9:46:00 AM AI在线
多智能体架构Insight-V来了!突破长链视觉推理瓶颈

多智能体架构Insight-V来了!突破长链视觉推理瓶颈

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/13/2024 1:26:00 PM 机器之心
清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。 (VLA:视觉-语言-动作模型,代表一类用于处理多模态输入的模型)简单来说,DeeR-VLA就像人的决策系统:简单任务快速思考,复杂任务仔细思考。
12/2/2024 7:10:00 AM
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂

徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂

在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。 GPT-4o 的出现所传递的信息是:在底层模型并没有变得更智能的情况下,能够跨多种模态进行推理的模型必然是更加通用的。 因为其不仅具备多种功能,还能以不同模态传递知识。
6/20/2024 3:28:00 PM 王悦