讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

用过 OpenAI 视觉 API 的开发者都被惊艳到了。文章开始，我们先来看一段球赛讲授视频：是不是感觉听起来不太对劲？你的感觉没错，因为这段讲授是用 AI 生成的，这个大喊「梅西！梅西！」的声音居然来自 AI。这是 X 平台（原推特）博主 @Gonzalo Espinoza Graham 发布的一段视频。他表示，在制造过程中，他主要用到了 GPT-4V 和 TTS 两项技术。GPT-4V 是 OpenAI 前段时间发布的一个多模态大模型，既能像原版的 ChatGPT 一样通过文字聊天，也能读懂用户在聊天中给到的图

用过 OpenAI 视觉 API 的开发者都被惊艳到了。

文章开始，我们先来看一段球赛讲授视频：讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

是不是感觉听起来不太对劲？

你的感觉没错，因为这段讲授是用 AI 生成的，这个大喊「梅西！梅西！」的声音居然来自 AI。

这是 X 平台（原推特）博主 @Gonzalo Espinoza Graham 发布的一段视频。他表示，在制造过程中，他主要用到了 GPT-4V 和 TTS 两项技术。

GPT-4V 是 OpenAI 前段时间发布的一个多模态大模型，既能像原版的 ChatGPT 一样通过文字聊天，也能读懂用户在聊天中给到的图像。更令人兴奋的是，在昨天的开发者大会上，OpenAI 宣布，他们已经开放了视觉能力相关的 API——gpt-4-vision-preview。通过这个 API，开发者可以用 OpenAI 最新的 GPT-4 Turbo（视觉版）来开发新应用。

对于这个期待已久的 API，开发者们都跃跃欲试。因此，API 刚开放一天，就有不少开发者晒出了试用结果，这个球赛讲授就是其中之一。

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

博主表示，为了制造这个讲授视频，他将原视频的帧分批传给 gpt-4-vision-preview，然后通过一些简单的提醒（prompt）要求模型生成一段旁白，最后把得到的结果用 TTS（文本转语音技术）转成音频，就可以得到视频中展示的成效。如果稍加编辑，理论上还能得到更好的结果。按照 OpenAI 目前的定价，制造这个视频大约要花 30 美元，作者直呼「不便宜」。

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样相关代码：https://github.com/ggoonnzzaallo/llm_experiments/blob/main/narrator.ipynb

除了球赛，还有开发者晒出了自己用 OpenAI 视觉 API 讲授《英雄联盟》的 demo，这个 demo 用到的是 LNG 与 T1 的一场竞赛视频，引起了全网 50 多万网友的围观。

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

讲授成效是这样的：讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

不过，这类视频具体要怎么做呢？好在，除了这些成品成效，部分开发者还晒出了自己总结的教程，以及每个步骤中涉及的具体工具。

从 X 平台用户 @小互晒出的内容来开，整个实现过程可以分为 7 步：

提取视频帧；

构建描述提醒；

发送 GPT 请求；

制造语音讲授提醒；

生成语音讲授脚本；

将脚本转换为音频；

将音频与视频结合。

具体内容请拜见以下教程：讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

不过，有人在评论区提出疑问：讲授的这些竞赛都是以前的，及时的竞赛能讲授吗？

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

能否讲授及时的竞赛我们现在还看不出来，不过，确实有开发者晒出了用 OpenAI 视觉 API 及时解读摄像头内容的 demo：

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

项目链接：https://github.com/bdekraker/WebcamGPT-Vision

做了类似实验的开发者评价说，OpenAI 视觉 API 的识别速度很快、准确性也很高。讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样甚至有人直接把它当及时画图工具来用，把手里的草图及时转换为此前调用专业画图工具才能绘制的图表：

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

不过，这个及时成效的实验会受到 OpenAI 设置的速率限制。

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

可以说，OpenAI 正通过 GPT-4V 以及刚刚开放的视觉 API 让全世界看到多模态的力量，以上成效只是冰山一角。

其实，无论是在现实生活中，还是在研究领域，一个能读懂图像、视频的 AI 都有广泛的用途。

在生活中，它能用于构建更加智能的机器人，让机器人及时分析眼前的情景，随机应变，这也是当前大火的具身智能所研究的问题。讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样国内创业公司开发的具身智能机器人（拜见《独家 | 达摩院后的下一站：陈俊波推出具身智能大模型，要给所有机器人做一颗脑袋》）

此外，它还能用于改善视障群体的生活质量，帮助他们解读视频画面和生活场景。其实，在字节跳动去年举办的一个帮助视障群体的公益竞赛中，我们就能看到不少类似的创意，只是当时多模态技术还不够成熟（拜见《穿颜色成对的袜子，追最新的剧：这群 coder 正帮视障者移走身上的大山》）。

在微软最近的一篇论文中，研究者也展示了他们在这方面取得的进展，比如用 GPT-4V 解读《憨豆先生》剧情。讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

这种优秀的视频解读能力能够帮助研究人员更好地理解视频，从而把广泛存在的视频转化为新的训练数据，训练出更聪明的 AI，形成一个闭环。

看来，一个更智能的世界正在加速到来。

参考链接：

GPT-4V + TTS = AI Sports narrator 🪄⚽️
Passed every frame of a football video to gpt-4-vision-preview, and with some simple prompting asked to generate a narration
No edits, this is as it came out from the model (aka can be SO MUCH BETTER) pic.twitter.com/KfC2pGt02X
— Gonzalo Espinoza Graham 🏴‍☠️ (@geepytee) November 7, 2023

https://twitter.com/xiaohuggg/status/1721819447516942716

Tested GPT-4 Vision API. I'm amazed. Paper to DrawIO diagram😲 #openai #gpt4v #gpt4 pic.twitter.com/QTDcq5Zb5K
— Topi Santakivi (@sandst1) November 7, 2023

{{userData.name}}已认证

讲授梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

热乎的GPTs体验报告：创造专属GPT，不懂代码人的春天来了

用过GPT-4 Turbo以后，我们再也回不去了

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

研究：AI 医疗建议存巨大安全隐患，22% 的回答可能致死