多模态模型

小而强！微软发布小型模型LLaVA-Rad，实现精准放射学报告生成

小而强！微软发布小型模型LLaVA-Rad，实现精准放射学报告生成

近日，微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad，这是一种新型的小型多模态模型（SMM），旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步，也为放射学的临床应用带来了更多的可能性。在生物医学领域，基于大规模基础模型的研究已经展现出良好的应用前景，尤其是在多模态生成 AI 的发展下，可以同时处理文本与图像，从而支持视觉问答和放射学报告生成等任务。

2/10/2025 9:46:00 AM AI在线

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/13/2024 1:26:00 PM 机器之心

清华新VLA框架加速破解具身智能止步实验室“魔咒”，LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”，LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高，机器人使用多模态模型的障碍被解决了！来自清华大学的研究者们设计了DeeR-VLA框架，一种适用于VLA的“动态推理”框架，能将LLM部分的相关计算、内存开销平均降低4-6倍。（VLA：视觉-语言-动作模型，代表一类用于处理多模态输入的模型）简单来说，DeeR-VLA就像人的决策系统：简单任务快速思考，复杂任务仔细思考。

12/2/2024 7:10:00 AM

徐图智能徐东：文生视频创业，要用坚定信仰对抗 fomo 的大厂

徐图智能徐东：文生视频创业，要用坚定信仰对抗 fomo 的大厂

在 GPT-4 发布一年多后，OpenAI 推出 GPT-4o，是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。 GPT-4o 的出现所传递的信息是：在底层模型并没有变得更智能的情况下，能够跨多种模态进行推理的模型必然是更加通用的。因为其不仅具备多种功能，还能以不同模态传递知识。

6/20/2024 3:28:00 PM 王悦

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉