多模态
【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节
目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务,然而,纯OCR任务偏向于模型的感知能力,对于文档场景,由于文字密度较高,现有方法往往通过增加图像token的数量来提升性能。 这种策略在增加新的语言时,需要重新进行训练,计算开销较大,成本较高。 因此,本文再来看看vary和got这两个衔接工作,看看其完整的技术链路。
12/12/2024 12:25:09 AM
余俊晖
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/7/2024 4:59:00 PM
机器之心
Mistral 发布 Pixtral Large 多模态 AI 模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o
Mistral AI 公司昨日(11 月 18 日)发布公告,宣布了全新的多模态 AI 模型 Pixtral Large。该模型拥有 1240 亿参数,基于 Mistral Large 2,主要用于处理文本和图片。
11/19/2024 2:57:21 PM
故渊
人工智能的下一个前沿:多模态系统将重塑我们的世界
人工智能的世界正在以惊人的速度发展。 多模态人工智能处在这场革命的前沿,这项技术将重新定义我们人类与机器的交互方式。 多模态人工智能不仅仅是另一个热词,多模态人工智能是一个正在改变各个行业并有望重塑数字格局的范式转变。
11/14/2024 6:00:00 AM
至顶网
实时音视频领域拓荒者的十年
2015 年,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC(实时视音频)大会。 在大会开始的前夕,现任声网市场VP、RTC大会主策人彭小欢失眠了,她非常担心明天会不会有人来。 一晃十年过去了,当年的RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,但早已不用担心是否有人光顾,现场可谓是座无虚席。
10/31/2024 10:31:00 AM
张进
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。 与云端相比,端侧离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。 今日,面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V——据介绍,MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。
8/7/2024 9:42:00 AM
朱可轩
视频生成赛道再添“猛将”,智谱清影正式上线
年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。 随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。
7/31/2024 2:36:00 PM
朱可轩
商汤大模型的「5o」交互,普通人如何和 AI 过一天?
在商汤的演示下,日日新5o拥有像人一样的实时视觉能力,可以跟人进行流畅的视频交互——能听、能说、能看、无延时,它可以通过摄像头 语音实现和用户的实时交互,并获知用户所在的真实场景下的各种状态信息,打破了与AI交互的次元壁,实现了与AI的“视频通话”,已经具备真人聊天般的交互体验。 两个月前OpenAI推出了GPT-4o,以突破性的智能交互能力,彻底颠覆了我们对AI语音助手的认知,颠覆了过去的人机交互,给业界带来又一次震撼。 震撼之外,中国大模型界对GPT-4o的认知似乎并不如GPT-4那么统一,有人认为「在实现AGI的路上,GPT-4o并不重要」、有人评价「在技术突破上,GPT-4o没那么惊艳」;有人认为GPT-4o的发布是 AI 2.0 时代的标志性事件,会催生全新的应用平台和商业模式。
7/15/2024 6:42:00 PM
张进
商汤即将发布“日日新5.5”,现场将签约多项重磅合作
商汤科技将发布“日日新5.5”,混合模态能力大幅提升据消息,2024年7月5日,在世界人工智能大会(WAIC 2024)上,商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本,全面升级“云、端、边”大模型产品矩阵,同时进行多项重磅合作的签约发布,加速生成式AI向产业落地的全面跃迁。 商汤发布日日新5.5版本,混合模态能力大幅提升据悉,基于基础模型的技术领先优势,本次商汤推出的“日日新5.5”大模型体系的多模态能力大幅升级。 此前,商汤在今年推出的“日日新5.0”大模型体系,其多模态图文感知能力、文生图能力就已经达到全球领先水平,并在多个多模态大模型权威综合基准测试中综合取得SOTA。
6/26/2024 4:43:00 PM
我在思考中
国产端侧小模型超越 GPT-4V,「多模态」能力飞升
在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型? 过去一年,由于 6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。 诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。
5/20/2024 4:10:00 PM
陈彩娴
专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语
与聋哑人交流,是一件成本很高的事情。 首先要看得懂手语,其次是会打手语。 在全球任何一个国家,手语都被归属为一门“小语种”。
3/6/2024 9:48:00 AM
吴彤
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind