语音
帕萨特发布会语音助手翻车 ,知情人士爆料:PPT多切了一页
9月11号消息,上汽大众正式推出了帕萨特 380TSI 家族,共计五款车型。然而在发布会上发生了一段意外插曲。帕萨特 Pro 在演示其搭载的智能AI语音系统时翻车,出现了问题和回答对不上的情况。据有关知情人士透露,该演示内容为提前录制,但高管在现场打乱了提问顺序,操作人员一时跟不上节奏,ppt多切了一页,事先准备好的语音没有及时同步,从而导致“翻车”。
9/12/2024 10:18:00 AM
新闻助手
“国内首个端到端通用语音 AI 大模型”心辰 Lingo 发布,号称中文效果比 GPT-4o 更出色
西湖心辰昨日发布了心辰 Lingo 语音大模型,号称是“国内首个端到端通用语音大模型”。官方表示,针对心辰 Lingo 端到端语音大模型的能力,在多个领域和中文上进行增强,使得心辰 Lingo 的中文语音效果,相较 GPT-4o 更为出色。心辰 Lingo 于 8 月 24 日开启内测,至今已经有超千家企业用户预约测试。相比较传统 TTS,端到端语音大模型则是一种更为全面的技术,不仅可以语音识别,还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节,实现了从语音输入到语音反馈的完整交互过程。心辰 Ling
9/6/2024 6:59:42 PM
沛霖(实习)
OpenAI ChatGPT 被曝将新增 8 种新语音:更自然表达狗叫等动物声音
科技媒体 testingcatalog 昨日(9 月 2 日)发布博文,报道称通过逆向工程 ChatGPT 应用,发现 OpenAI 即将扩充添加语音,让朗读的声音更加自然和富有表现力。有迹象表明 OpenAI 未来可能会额外推出 8 种新的语音,每种语音都有一个独特的代号,后续可能会逐步推出。这些新声音的另一个有趣特点是,它们能够更自然地表达声音,如动物叫声或其他非语言声音。此外,在朗读加粗或斜体的文字时,它们还能传达或强调特定的情绪。不过,重要的是要记住,这些仍然是 TTS(文本到语音)语音,很可能与目前处于
9/3/2024 7:17:40 AM
故渊
国内首个端到端通用语音大模型——心辰Lingo开放内测预约
内容导览:国内首个端到端通用语音大模型——心辰Lingo现开放内测预约。 在技术上,心辰Lingo具备实时打断、实时指令控制、超级拟人、能说会唱等能力,拥有比 GPT-4o 更出色的中文语音效果。9月5日西湖心辰将在外滩大会上正式发布该模型,这一技术的突破或将对多个领域产生深远影响,有望引领人机交互进入一个全新的时代。登陆「心辰Lingo」语音大模型官网(),即可马上预约内测。什么是端到端语音对话模型?传统的语音交互是先将语音转成文字,再理解文字,然后生成回复文字,最后再将文字转为语音。每次交互中“语音-文本”和“
8/29/2024 2:45:00 PM
新闻助手
腾讯推出“全球首个”语音指挥 FPS AI 队友,可据输入指令推测玩家意图
感谢AI在线从腾讯魔方工作室获悉,在 8 月 21 日的 2024 科隆游戏展上,《暗区突围》端游海外版《Arena Breakout: Infinite》亮相。同时,由魔方工作室群技术团队联合《暗区突围》项目团队推出了号称“全球首个”的语音指挥 FPS AI F.A.C.U.L. 。 据官方介绍,该产品是全球第一个“能听懂人类语言”的 FPS AI 队友,应用了生成式 AI 技术,包括语音输入、大语言模型、实时语音合成和环境识别等。其支持玩家用语音直接输入复杂战术指令,还能以此推测玩家意图并用 AI 语音实时反
8/24/2024 11:02:46 AM
清源
“国内首个能力追齐 GPT-4o 语音能力的模型”,心辰 Lingo 语音 AI 模型开放内测预约
金科汤姆猫投资的西湖心辰于今年 8 月推出心辰 Lingo 语音大模型,是国内首个端到端语音大模型,已于今天(8 月 24 日)开启内测预约。在 8 月 21 日发布的公告中,官方介绍称相比较传统 TTS,端到端语音大模型则是一种更为全面的技术,它不仅可以语音识别,还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节,实现了从语音输入到语音反馈的完整交互过程,极大地丰富了人机交互的深度和广度。AI在线援引官方新闻稿,心辰 Lingo 语音模型是国内首个能力追齐 GPT-4o 语音能力的模型,技术能力上具备
8/24/2024 9:56:44 AM
故渊
微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频
微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用,Azure AI 语音服务最新推出了文本到语音虚拟人功能,可以将简单的文本转换为人类自然说话视频。今天,微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。AI在线附示例如下:Text to Speech Avatar 具有以下功能:将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频,该视频具有自
8/23/2024 7:29:09 AM
汪淼
科大讯飞推出“星火极速超拟人交互”:可模仿孙悟空、蜡笔小新、小猪佩奇等音色、语气、人设
感谢科大讯飞今日宣布对星火语音大模型进行更新,带来“星火极速超拟人交互”,计划于 8 月 30 日上线讯飞星火 App。“星火极速超拟人交互”采用统一神经网络实现语音到语音的端到端建模。官方称即便被频繁打断,也能“迅速反应”,更加符合日常对话情境。升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别;自动带入符合情境的对话,用合适的情绪语气进行回复。据介绍,“星火极速超拟人交互”的情感表达“更灵活”,可以在交流中跟随用户指令控制数十种情感、风格、方言,支持调节语速。“星火极速超拟人交互”能够模仿包括孙悟空、蜡笔
8/19/2024 11:41:42 AM
沛霖(实习)
准确率97%,将大脑信号转化为语音,新型脑机接口让失语者「说话」
编辑 | 萝卜皮肌萎缩性脊髓侧索硬化症又称渐冻人症(ALS),会影响控制全身运动的神经细胞。这种疾病会导致患者逐渐丧失站立、行走和使用双手的能力。它还会导致患者失去对说话肌肉的控制,从而无法进行语言表达。加州大学戴维斯分校的研究团队开发了一项新技术旨在帮助因瘫痪或 ALS 等神经系统疾病而无法说话的人恢复交流能力。它可以解读用户说话时的脑信号,并将其转换成计算机大声朗读的文本。其准确率高达 97%,是同类系统中最准确的。该团队的研究人员在一名因 ALS 而导致语言能力严重受损的男子的大脑中植入了传感器。这名男子在启
8/16/2024 6:57:00 PM
ScienceAI
字节豆包大模型已支持实时语音通话
IT 之家 8 月 9 日消息,字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案,搭载火山方舟大模型服务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输,并深度整合豆包・语音识别模型和豆包・语音合成模型,简化语音到文本和文本到语音的转换过程,提供智能对话和自然语言处理能力,帮助应用实现用户和云端大模型的实时语音通话。▲ 对话式 AI 实时交互服务方案架构字节跳动介绍称,对话式 AI 实时交互解决方案支持开箱即用快速搭建,只需调用标准的 OpenAPI 接口即可配置所需的语音识别(ASR
8/9/2024 2:27:22 PM
汪淼
美国 FCC 提议 AI 生成电话语音必须“自报”AI 身份,以打击骚扰、欺诈信息
AI“模仿”人类声音的能力日渐成熟,已经有部分用户开始无法凭借第一反应来判断说话者是人类还是人工智能。当前,AI 生成的语音被越来越多地用在语音通话中,例如广告宣传或推销等领域。据 TechRadar 北京时间今天报道,美国联邦通信委员会(AI在线注:下文简称 FCC)正试图打击一些利用 AI 生成通话语音的不法行为和恶意企图,并提出一项提案旨在加强对消费者的保护,使消费者免受“不受欢迎的”AI 自动电话的侵害。FCC 的计划将帮助“定义”AI 生成的电话和短信,从而使委员会能够设置界限和规则,例如强制要求 AI
8/9/2024 7:48:31 AM
清源
OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式,可提供更自然实时对话
当地时间 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用户开放 GPT-4o 的语音模式(AI在线注:Alpha 版本),并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。今年 5 月,OpenAI 首席技术官米拉・穆拉蒂(Mira Murati)在演讲中提到:在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们在探索该模型的功能及其局限性方面仍处
7/31/2024 6:54:40 AM
清源
开启无缝 AI 语音聊天,OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式
感谢OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)今天回复网友提问,表示将于下周面向 ChatGPT Plus 用户,开放 Alpha 版本 GPT-4o 的语音模式(Voice Mode),实现无缝聊天。AI在线今年 5 月报道,OpenAI 首席技术官穆里・穆拉蒂(Muri Murati)在演讲中表示:在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们在探索该模型的
7/26/2024 3:32:59 PM
故渊
普通话响应速度提升 3 倍,ElevenLabs 发布文本转语音 Turbo 2.5 AI 模型
ElevenLabs 昨日(7 月 19 日)发布博文,介绍推出了全新的 Turbo v2.5 文本到语音 AI 模型,支持普通话等 32 种语言,为全球近 80% 的地区提供高质量、低延迟的 AI 对话。Turbo v2.5 模型首次支持越南语、匈牙利语和挪威语,这些语言的使用人数分别为 8500 万、1300 万和 530 万。本次更新还重点提高了印地语、法语、西班牙语、普通话和其他 27 种语言的响应速度,最高提升了 3 倍;英语的速度提高了 25%。AI在线附上宣传视频如下: Turbo v2.5 模型结合
7/20/2024 10:32:53 AM
故渊
阿里云通义千问开源两款语音基座模型,识别效果优于 OpenAI Whisper
阿里云通义千问开源了两款语音基座模型 SenseVoice(用于语音识别)和 CosyVoice(用于语音生成)。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测,有以下特点:多语言识别:采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果;支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测高效推理: SenseVoice-Sma
7/9/2024 10:17:59 AM
沛霖(实习)
实测最新AI语音模型:让特朗普、丁真说绕口令堪称以假乱真,但断句整得稀碎
机器之能报道编辑:杨文这款新AI语音模型Fish Speech,模仿音色一绝。近来,AI 语音赛道突然热闹起来。一个多月前,一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢?仅三天时间就在 GitHub 狂揽 9.2k Star 量,还一度登顶 GitHub Trending 榜首并连续霸榜。没多久,字节也推出一款类似项目 Seed-TTS,喊出的口号同样是「生成自然真实的语音」。这几天,这一赛道又闯进新玩家 ——Fish Speech。据悉,该模型经过 15 万小时的数据训练,已熟
7/4/2024 3:40:00 PM
机器之能
OpenAI 推迟发布 ChatGPT 语音助手功能,检测及拒绝部分内容的能力仍待加强
感谢北京时间今天清晨,OpenAI 在 X(推特)上发文宣布,备受期待的 ChatGPT 语音助手功能将被推迟发布,因为公司需要确保它能够“安全有效地”处理来自数百万用户的请求。IT之家附通知大意如下:我们想分享春季更新中演示过的先进语音模式的最新进展,对此我们仍然非常兴奋:我们原计划在 6 月下旬开始向一小部分 ChatGPT Plus 用户推出测试版,但还需要一个月的时间才能达到启动标准。例如,我们正在提高该模型检测和拒绝某些内容的能力。我们还在努力改善用户体验,并准备基础设施,以便在保持实时响应的同时扩展到数
6/26/2024 7:50:37 AM
清源
科大讯飞:星火 V4.0 大模型“对标 GPT-4 Turbo”,6 月 27 日发布多款产品
科大讯飞今日发布公告,公司将于 2024 年 6 月 27 日在北京国家会议中心如期发布讯飞星火大模型的最新进展。本次发布会以“懂你的 AI 助手”为主题,发布讯飞星火大模型 V4.0 及相关落地应用。官方披露发布会内容:全面提升大模型底座七大核心能力,对标 GPT-4 Turbo;全新升级讯飞星火 App / Desk,发布“个人空间”,打造更懂你的 AI 助手;全新发布星火智能批阅机,助力教师因材施教;全新升级讯飞 AI 学习机,个性化辅学升级 AI 1 对 1 答疑辅导;全新升级讯飞晓医 App,打造“每个人
6/24/2024 8:35:23 PM
浩渺
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭“限流”
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
AI设计
Claude
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
Transformer
LLM
字节跳动
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构