模态

国际首个，我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
感谢AI在线从上海市第六人民医院官方公众号获悉，上海交通大学医学院附属第六人民医院贾伟平教授和李华婷教授团队与上海交通大学电院计算机系 / 教育部人工智能重点实验室盛斌教授团队，携手清华大学黄天荫教授团队与新加坡国立大学覃宇宗教授团队，通过医工交叉合作研究，构建了全球首个面向糖尿病诊疗的视觉-大语言模型的多模态集成智能系统 DeepDR-LLM，成果于 2024 年 7 月 19 日在 Natur…
应用
- 2
- 0
清源7月25日
商汤绝影行业首发原生多模态大模型车端部署：80 亿参数、每秒 40 Tokens
商汤科技联合创始人、首席科学家王晓刚 17 日宣布，商汤绝影在行业内率先实现了原生多模态大模型的车端部署。车载端侧 8B 模型首包延迟在 300 毫秒以内，推理速度 40 Tokens / 秒，覆盖主流算力平台。商汤绝影为多模态大模型打造计算引擎“HyperPPL”，目前扩展并支持主流车载计算硬件，兼容多种主流操作系统，适配多个车载芯片的部署平台。商汤绝影称 HyperPPL 针对车载多人场景进行…
应用
- 3
- 0
沛霖（实习）7月19日
因监管问题，Meta 将不会在欧盟发布新的多模态 AI 模型
据 Axios 报道，Meta 在一份声明中表示，他们即将发布一个多模态的 Llama 模型，但由于监管环境的不确定性，该模型不会在欧盟发布。Meta 表示，这一决定也意味着即使在开放许可下发布，欧盟的客户和公司也无法使用多模态模型，Meta 将向欧盟的客户和公司提供仅支持文本（text only）的 Llama 3 模型。报道称，Meta 的问题不在于《人工智能法案》，而在于如何在遵守《通用数据…
应用
- 2
- 0
沛霖（实习）7月18日
商汤大语言模型应用 SenseChat 向香港用户免费开放，支持广东话聊天
商汤科技今日宣布，旗下 Sensechat 手机 App 及网页版向香港用户免费开放。该服务此前已在中国大陆推出。Sensechat 基于商汤今年 5 月推出的“商量多模态大模型粤语版”，依托商汤“日日新”语言和多模态能力，以及对粤语及本地文化、热点的理解，用户可以直接用最熟悉的广东话跟它聊天，直接文字或语音输入，问问题、搜东西、生成图片、写文案等。AI在线附示例如下：香港的苹果 iPhone 用…
应用
- 14
- 0
汪淼7月9日
腾讯副总裁蒋杰：混元大模型正摆设从多模态到全模态的技术，很快即可体验
据界面新闻报道，在今天的 2024 世界人工智能大会（WAIC 2024）上，腾讯集团副总裁、腾讯混元大模型负责人蒋杰谈及大模型多模态相关问题。蒋杰表示，大模型行业正从最初的单模态向多模态过渡。其认为对于腾讯混元大模型来说，多模态是一道“必答题”，目前混元大模型正在积极摆设从多模态到全模态的技术，用户将很快可在腾讯元宝 App、腾讯外部业务及场景中体验，同时会通过腾讯云向外部使用开放。而在 5 月…
应用
- 14
- 0
清源7月5日
蚂蚁百灵大模型：多模态本领提升，将应用在支付宝智能助理等
IT之家从蚂蚁团体获悉，蚂蚁团体自研的百灵大模型的多模态本领全面提升。多模态本领让大模型能“看”会“听”，能“说”会“画”，可支援音、视、图、文等多模态理解与生成，可以让大模型更像人一样感知和互动，未来将应用在支付宝智能助理、AI 金融管家和 AI 就诊助理等多个 AI 智能体。支付宝智能助理是基于蚂蚁团体自研的百灵大模型研发的一款全新的生存供职 AI 产品，它围绕用户的吃、喝、行、游、供职、买票…
应用
- 3
- 0
沛霖（实习）7月5日
支付宝AI新进展：发布多模态调理大模型，携手20家机构发起AI调理共建计划
7月5日，在2024世界人工智能大会“可托大模型论坛”上，支付宝公布了其AI技能在调理领域布局的最新进展：发布多模态调理大模型，同时，全新推出包括调理可托一体机、可托云等多款数智化解决方案。现场，支付宝还与人民卫生出版社、北京大学医学部、浙江省卫生衰弱委等20家机构，联合发起AI调理共建计划，共同探索AI数智技能底座与革新利用效劳。支付宝多模态调理大模型亮相经过半年多测试打磨，支付宝调理大模型正式…
应用
- 4
- 0
新闻助手7月5日
蚂蚁百灵大模型最新进展：已具有原生多模态本领
7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁团体公布了其自研的百灵大模型最新研发进展：百灵大模型已具有能“看”会“听”、能“说”会“画”的原生多模态本领，可以直接明白并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路，在国内，目前只有为数不多的大模型厂商兑现了这一本领。记者从大会现场的演示看到，多模态技能可以让大模型更像人一样感知和互动，…
应用
- 9
- 0
新闻助手7月5日
交互效果对标 GPT-4o，商汤颁布国内首个所见即所得模型“日日新 5o”
商汤科技颁布“日日新 SenseNova 5.5”大模型体系，并颁布国内首个所见即所得模型“日日新 5o”，交互效果对标 GPT-4o。通过整合跨模态信息，鉴于声响、文本、图像和视频等多种形式，“日日新 5o”带来全新的 AI 交互形式 —— 及时的流式多模态交互。据介绍，“日日新 5o”能听、会看、更会找话题，就如同“真人聊天一般”，这种交互形式适用于及时对话和语音识别等应用，能够在同一模型中自…
应用
- 8
- 0
沛霖（实习）7月5日
调整多组学数据，华大基因团队图神经网络模型SpatialGlue登Nature子刊
编辑 | KX空间转录组学是继单细胞转录组学出现以来，在生物样本分解领域的又一重大进展。多组学数据的调整至关重要。近日，新加坡科技研讨局（A*STAR）、华大基因和上海交通大学医学院附属仁济医院等组成的研讨团队，提出了一种具有双注意力机制的图神经网络模型 SpatialGlue，能够以空间感知的方式调整多组学数据。SpatialGlue 能够有效地将多种数据模态与其各自的空间背景相结合，以揭示构造…
应用
- 3
- 0
ScienceAI7月3日
15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的危险性
最新发表在 arXiv 的钻研论文指出，包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输入结果并不危险。这项钻研标题为《跨模态危险调整》（Cross-Modality Safety Alignment），提出了一个全新的“危险输入但不危险输入”（SIUO），涉及品德、危险行为、自残、侵犯隐私、…
AI
- 3
- 0
故渊6月25日
baidu文库宣布“橙篇”行业首创 10 万字长文生成及多模态编写能力
baidu文库昨日宣布，新产品“橙篇”行业首创 10 万字长文生成及多模态编写能力，成为行业首个“查阅创编”一站式 AI 自在创作平台。据IT之家此前报道，baidu文库于 5 月 30 日发布 AI 原生应用“橙篇”，“橙篇”是一个知识检索和问答、超长图文了解和生成、深度编写和跨模态自在创作的综合性 AI 产品。“橙篇”有以下功效：长文生成写作资料搜寻：专业学术搜寻与 AI 全网搜寻文档总结：支…
AI
- 2
- 0
沛霖（实习）6月20日
松鼠Ai崭新多模态智符合大模型发布会重磅召开，智符合教训软硬件片面晋级
近日，松鼠Ai崭新多模态智符合大模型发布会于上海隆重召开。本次发布会盛况空前，不仅震撼揭晓了松鼠Ai多模态智符合教训大模型及系统的全方位晋级，还重磅推出了多款崭新智符合教训硬件产品。凭借软硬件生态的片面革新，松鼠Ai不仅展示了其在教训科技领域的片面突破，更宣告了智符合教训新时代的到来。智符合教训大模型重磅晋级，迈向多模态大模型新纪元此次发布上，松鼠Ai揭晓了重磅晋级的智符合教训大模型，其在多模态智…
应用
- 1
- 0
新闻助手6月19日
GPT-4o 更容易逃狱？北航 & 南洋理工上万次测试给出详细分析
GPT-4o，比上一代更容易被逃狱攻打了？来自北航和南洋理工的研究人员，通过上万次的 API 查问，对 GPT-4o 各种模态的危险性进行了详细测试。结果发现，GPT-4o 新引入的语音模态带来了新的攻打面，而且多模态整体危险性不敌 GPT-4V。具体来说，研究人员针对 4 个常用的基准测试，对 GPT-4o 支持的三种模态（文本、图象、音频）进行了测试。测试一共涉及到 4000 初始文本查问的优…
AI
- 3
- 0
清源6月12日
ECCV 2024 Workshop主动驾驭难例场景多模态明白与视频生成征稿与挑战赛火热启动！
Workshop主页：。近年来，多模态大模型（如GPT-4V）展示了其在多模态感知与明白方面前所未有的进步。然而，利用MLLMs来应对主动驾驭中复杂场景，特别是罕见但关键的难例场景，仍然是一个未解的挑战难题。本次Workshop旨在促进多模态大模型感知与明白、先进的AIGC技术在主动驾驭系统中的应用、端到端主动驾驭等方面的创新研究。Workshop征稿本次论文征稿关注主动驾驭场景多模态感知与明白、…
应用
- 11
- 0
新闻助手6月3日
baidu文库颁布 AI 原生利用“橙篇”：长文理解、总结、生成与编辑
2024 baidu移动生态万象大会今日在苏州举办，会上baidu副总裁、文库事业部负责人王颖颁布了综合性 AI 原生利用“橙篇”。利用“橙篇”，用户可以对“超大量、超多花式、超长实质”的文件进行理解、总结与问答。该利用还支持“超长篇幅”的长文生成、深度编辑以及多模态的自由创作。依托baidu文库、baidu学术以及全网数十亿的专业信息和资料，用户可以在“橙篇”上进行 AI 全网智能检索和学术检索…
AI
- 3
- 0
沛霖（实习）5月30日
港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体
当前，多模态大模型（MLLM）在多项视觉任意上展现出了强大的认知理解本领。然而大部分多模态大模型局限于单向的图象理解，难以将理解的内容映射回图象上。比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。定位本领的缺失直接限制了多模态大模型在图象编辑，自动驾驶，机器人控制等下游领域的应用。针对这一问题，港大和字节跳动商业化团队的研究人员提出了一种新范式 Groma——通过地区性图象编…
AI
- 1
- 0
清源5月27日
面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机
感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支援 30 种说话，宣称可兑现：最强端侧多模态综合性能：超出 Gemini Pro 、GPT-4VOCR 才能 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精确辨认图像编码快 150 倍：首次端侧系统级多模态减速▲ OpenCompass 模…
AI
- 2
- 0
泓澄（实习）5月21日
Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA
【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混杂模态」Chameleon，可以在单一神经网络无缝处理文本和图象。10 万亿 token 训练的 34B 参数模型本能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-…
AI
- 3
- 0
清源5月19日
vivo 自研蓝心大模型升级“自研 AI 多模态大模型”
在在举行的 vivo 影象新宏图暨 X 系列新品发布会上，vivo 宣布自研蓝心大模型升级「自研 AI 多模态大模型」，多模态技能让大模型从最原始的视觉、声音、空间等方面接触、感知、理解世界，让大模型更全面、更聪明、更强大。此外，vivo 瞥见 | 多模态大模型技能使用 ——「vivo 瞥见蓝心升级版」，帮助视障用户更好地“瞥见”世界。去年 11 月 1 日，在 2023 vivo 开发者大会上，…
AI
- 2
- 0
远洋5月13日
从基因组到蛋白质组连续翻译，南开大学开发通用跨模态数据分解步骤
编辑 | 萝卜皮近期，科学家在单个细胞内同时分解多组学模态的进展，使得细胞异质性和分子层次结构的钻研成为可能。然而，技术限制导致多模态数据的高噪声和高昂的成本。在这里，南开大学的钻研团队提出了 scButterfly，一种基于双对齐变分自动编码器和数据巩固方案的多功能单细胞跨模态翻译步骤。通过对多个数据集的全面实验，钻研职员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和…
理论
- 2
- 0
ScienceAI5月4日
参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。
理论
- 3
- 0
机器之心5月1日
颜水成挂帅，昆仑万维2050全球钻研院联合NUS、NTU发布Vitron，奠定通用视觉多模态大模型终极形态
近日，由颜水成教授带队，昆仑万维2050全球钻研院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大谈话模型。这是一款重磅的通用视觉多模态大模型，支援从视觉懂得到视觉生成、从低层次到高层次的一系列视觉义务，解决了困扰大谈话模型产业已久的图象/视频模型割裂问题，提供了一个全面同一静态图象与动态视频内容的懂得、生成、分割、编辑等义务的像素级通用视觉多模态大模型，…
应用
- 3
- 0
新闻助手4月26日
鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式
引言如图 1所示，现有的三阶段 RGB-T 单方向追踪收集通常采用两个独立的特色提取分支，分别负责提取两个模态的特色。然而，相互独立的特色提取分支会导致两个模态在特色提取阶段缺乏有效的信息交互。因此，一旦收集完成离线训练，其仅能从每个模态图象中提取固定的特色，无法根据实际的模态状态动态调整，以提取更具针对性的动态特色。这一局限性制约了收集对多样的方向双模态外表，以及模态外表间动态对应关系的适应能力…
理论
- 3
- 0
特邀精选4月22日