MM-Vid
微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《试过 GPT-4V 后,微软写了个 166 页的测评报告,业内人士:高级用户必读》。近日,微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起,打造出了更强大的 MM-Vid,其不仅具备其它 LMM 的基本能力,还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介,可以通过文本、视觉和音
11/15/2023 2:46:00 PM
机器之心
- 1
资讯热榜
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头
xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布
Chai Discovery发布Chai- 2 模型:零样本抗体设计突破16-20%命中率
不再单一依赖英伟达,消息称 OpenAI 首次采用谷歌 AI 芯片训练 ChatGPT
Gemini2.5Pro API 免费回归,开发者社区热烈响应
阿里Ovis-U1震撼发布:多模态AI三合一,开源赋能全球开发者
OpenAI 高管回应 Meta 挖角潮:正积极留人,将“重新调整”薪酬
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
芯片
智能体
训练
开发者
生成式
腾讯
蛋白质
苹果
神经网络
3D
研究
生成
AI新词
Claude
机器学习
计算
LLM
Sora
AI设计
AI for Science
AI视频
GPU
人形机器人
xAI
百度
华为
搜索
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
视觉
RAG
神器推荐
模态
Copilot
亚马逊
具身智能
LLaMA
文本
算力
驾驶
API