从通义千问到通义听悟的发布,间隔只不到两个月。阿里用自己的大模型,给 AI 生产力工具来了一次大升级。今天上午,「通义」家族迎来了新成员 —— 阿里云旗下的 AI 集会助理产品「听悟」全新升级为「通义听悟」,依托通义千问谈话模型、音视频 AI 模型能力,为用户带来音频和视频实质记实和阅读的全新体验。官网地址:tingwu.aliyun.com目前,「通义听悟」已上线服务网站,使用阿里云账号登录,公测期可体验所有 AI 功用。从现场演示中可以看出,听悟融合了十多项 AI 功用。面向线上线下各种泛音视频场景,「通义听悟」提供音视频实质的及时字幕 / 转写、多谈话翻译、实质理解 / 择要,涵盖全文概要、章节速览、发言归纳等高阶 AI 功用,旨在帮助用户及客户在泛音视频实质场景下提升信息生产、拾掇、挖掘、洞察效率。 首先是「听力好」,比如能高准确度生成集会记实、区分不同发言人;此外是「悟性高」,大模型可以一秒给音视频划分章节并形成择要、归纳全文及每个发言人观点、拾掇关注重点和待办事项。另外,大模型一键提取 PPT、针对多个音视频实质向 AI 提问、概括特定段落等功用近期也将上线。针对一些细分场景,听悟还设置了不少「宝藏功用」:打开 Chrome 插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的「开会替身」,在静音情况下入会 AI 可代为记实集会、拾掇重心;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回忆可以让记者、分析师、律师、HR 等群体拾掇访谈更高效。
通义听悟 Chrome 插件将在近期对所有用户开放下载。据阿里云智能首席技术官周靖人介绍,听悟集成了阿里最先进的语音和谈话技术。其内置阿里新一代工业级语音辨认模型,辨认准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对 10 人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频实质进行择要归纳,事实准确与重心完备性国内领先,支持跨多音视频实质的精准问答理解。具体到玩法,正如「通义听悟」的「自我介绍」中所说:
如果你是一名职场人士,通义听悟可以帮你记实和回忆你的每一场集会;
如果你是一位学生朋友,通义听悟可以让你不遗漏老师讲授的每一个重点;
如果你是一名金融分析师或媒体从业人员,通义听悟可以存档你每一次的调研访谈;
如果你想以最快的时间看完你最喜爱的视频博主的直播分享,通义听悟可以使你以成倍的速度抓住最精彩的实质。
接下来,让我们看看「通义听悟」的本领如何。学习效率提升利器首先,用户可以本地上传音视频,选择转写谈话并上传文件,便可生成课程文字记实。
从阿里云盘直接导入也是可以的:通义听悟支持一键导入阿里云盘音视频文件。
据了解,公测期间注册的听悟用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时也可自动出字幕。如果用户选择在「通义听悟」中播放课程视频,还可以实现文字与视频进度一一对应。点击文字还可以跳转进度,随意切换感兴趣的实质。
此外,「通义听悟」能够帮忙归纳课程关键词和议程,方便学习者了解课程重心、回忆讲解片段。如果你想温习一下学习过程的疑点、难点,可以打开听悟实验室,开启「问题回忆」,便可回忆课程中的答疑实质。
想要快速温习重心,则可以使用「只看标记」功用,筛选高亮实质,温习更高效。你可以在右侧条记中记实核心知识点,将课程原文一键摘取至条记中。几小时的课程,五分钟便可完成条记。再使用分享功用,你可以将记实共享给其他用户,让知识流动起来。更加高效的集会体验面向集会日程繁多的「打工人」,「通义听悟」也新增了多项效率工具。集会开始前,打开「开启及时记实」功用,可以将沟通实质及时转文字,完整记实集会信息。
编辑标题,在右侧条记中输入集会待讨论事项。
在集会进行过程中,你可以修改辨认结果,边听边记实,无需二次拾掇;也可以编辑发言人,将经常一起开会的同事设为常用发言人,后续集会无需再次输入。
跨国集会中,可以开启翻译,支持双语对照和纯译文显示,沟通更顺畅。
集会结束后,点击结束录音按钮,选择本次集会发言人数并确认,「通义听悟」便可生成记实。不仅会归纳关键词和议程,还能自动区分不同发言人,帮助快速掌握集会重心。
此时,打开听悟实验室,便可查看值得关注的重心、待办事项,一键跳转至原文中,回忆会变得更高效。
「通义听悟」有哪些关键技术?此次听悟上线测试的信息择要等能力,是以通义千问大模型为基座,并融合了团队在推理、对齐和对话问答等方向的持续研究成果。「通义听悟」背后的「通义千问」,对关注 AI 领域的人来说并不陌生。从 2019 年开始,阿里就开始了大模型的研究,先后推出了被称为中文版 GPT-3 的中文大谈话模型 PLUG,以及全球首个 10 万亿参数的多模态大模型 M6。「通义」是阿里达摩院 2022 年 9 月发布的大模型系列,且通过魔搭社区开源开放。基于这些研究成果,今年 4 月 7 日,阿里正式发布了自研类 ChatGPT 产品「通义千问」。在技术落地上,「通义」也在不断加速。近期,阿里云通义千问等大模型已接入钉钉斜杠「/」。此外,听悟还内置了阿里新一代工业级语音辨认模型 Paraformer。Paraformer 是阿里达摩院去年 12 月发布的下一代「杀手锏」级别的语音辨认基础模型,且是业界首个应用落地的非自回归端到端语音辨认模型,在推理效率上最高可较传统模型提升 10 倍,辨认准确率在多个权威数据集上名列第一。同时,听悟的能力也可嵌进各类音视频平台,形成及时字幕、智能择要等,典型应用如钉钉的「钉闪记」背后便集成了听悟。未来,全新升级后的「通义听悟」还将在夸克 APP、阿里云盘等端口提供服务。最后,公测期间,用户可领取 100 小时以上听悟免费转写时长。如果你有需要的话,不妨上手一试?参考链接:https://help.aliyun.com/product/454189.html
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/22799