多模态大模型
华为云董理斌:做难事解难题,盘古大模型以“智”重塑千行万业
7 月 5 日,2024 世界人工智能大会暨人工智能全球治理高级别会议 —“盘古大模型重塑千行万业” 分论坛于上海世博中心举办。在 “盘古大模型做难事解难题,以‘智’重塑千行万业” 主题演讲中,华为云 Marketing 部部长董理斌向出席会议的百余名人工智能领域顶尖专家、业界领军人物分享了盘古大模型 5.0 的全新能力,以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等领域,重塑千行万业的应用进展。他表示,盘古大模型 5.0 通过更多的模态和更强的思维能力,重塑云服务,为开发者、客户和伙伴提供更强大、更丰富
7/5/2024 3:08:00 PM
新闻助手
国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o
2024 年 7 月 5 日,上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛,发布国内首个所见即所得模型 “日日新 5o”,交互体验对标 GPT-4o,实现全新 AI 交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招
7/5/2024 3:02:00 PM
新闻助手
联汇科技赵天成:从 CMU 天才少年,到多模态创业先行者
CMU LTI (卡内基梅隆大学语言技术研究所)每年在全球范围内只有十个左右的博士录取名额,其中的华人学者凤毛麟角。 本次以 OpenAI 发布 ChatGPT 为标志掀起的人工智能浪潮,CMU 也在各大主流 AI 公司中扮演了技术核心。 这群 CMU 中的华人学者,在中西争夺人工智能高地的竞争中,归国人才显得尤其弥足珍贵。
5/29/2024 10:36:00 AM
王悦
元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入
人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。 元象今日发布多模态大模型 XVERSE-V ,支持任意宽高比图像输入,在主流评测中效果领先。 该模型全开源,无条件免费商用 ,持续推动海量中小企业、研究者和开发者的研发和应用创新。
4/28/2024 12:09:00 PM
我在思考中
苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
编译 | 赖文昕编辑 | 陈彩娴大模型的诞生,让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发,OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下,大厂并不存在绝对的优势。 不久前,苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目,美国总部裁员了600多人,另有近2000名员工转到AI部门。 然而,在目前市场上的主流智能手机品牌中,苹果几乎是唯一一家尚未正式推出大模型的厂商。
4/10/2024 2:31:00 PM
赖文昕
亚马逊云科技展示Claude 3大模型能力,生成式AI落地正在加速
上周日,亚马逊云科技宣布 Mistral AI 的 Mistral Large 模型在Amazon Bedrock上正式可用。随着知名 AI 初创公司 Mistral AI、Anthropic 的前沿的大语言模型(LLM)陆续登陆 Amazon Bedrock,人们在构建生成式 AI 应用程序时,已经有了一系列先进模型的选择。
4/8/2024 7:47:00 PM
李泽南
个性经济时代,MiniMax 语音大模型如何 To C?
大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。 具体可访问 PhillyGPT 链接:,实际是人们对于 GPT 时代 C 端个性消费产品的真正想象。 无独有偶,1 月 11 日 OpenAI 正式上线 GPT Store 后,公布 300 万个 GPTs 之余,也将与用户日常消费活动息息相关的徒步路线指南“AllTrails”放在推荐榜单上。
2/2/2024 2:22:00 PM
王悦
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态任务的能力,如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址:: 体验地址: 体验地址:,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协
12/25/2023 2:33:00 PM
李亚洲
最懂工业的大模型来了!思谋发布全球首个工业多模态大模型
大模型技术正在引领新一轮工业革命,但将其应用于工业制造,仍面临许多挑战,专业知识的缺乏是关键难点。11月5日,香港中文大学终身教授、思谋科技创始人兼董事长贾佳亚受邀参加第六届中国国际进口博览会暨虹桥国际经济论坛开幕式。虹桥论坛上,贾佳亚在主题演讲中表示,“目前,业界还没有一个能真正服务于高端智能制造的大模型。” 贾佳亚在虹桥国际经济论坛上发表主题演讲亟待人工智能技术提高、释放生产力的工业制造界盼大模型已久,至此终于迎来全球首个工业多模态大模型IndustryGPT V1.0。论坛上,贾佳亚和团队正式发布Indust
11/7/2023 5:07:00 PM
新闻助手
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
Claude
AI设计
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
LLM
字节跳动
Transformer
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构