语音大模型
开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音
在人工智能领域,尤其是生成式对抗网络(AIGC)方面的不断进展,语音交互已成为一个重要的研究方向。 传统的大语言模型(LLM)主要专注于文本处理,无法直接生成自然语音,这在一定程度上影响了人机音频交互的流畅性。 为了突破这一局限,Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。
7/2/2025 5:00:55 PM
AI在线
几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的
试想一个场景,职场中接到一个香港客户的单子,但是在交付的过程中耽搁了时间,现在要进行线上沟通解释,那么你面对的情况大致是这样的:如果不对这段音频进行标注,可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。 但其实,这是由 AI 完成的配音,背后所使用的工具是海螺语音。 今年 1 月,继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后,再次推出了升级的语音大模型 T2A-01 系列,搭载于海螺 AI 之上,开辟海螺语音板块。
1/22/2025 2:07:00 PM
王悦
个性经济时代,MiniMax 语音大模型如何 To C?
大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。 具体可访问 PhillyGPT 链接:,实际是人们对于 GPT 时代 C 端个性消费产品的真正想象。 无独有偶,1 月 11 日 OpenAI 正式上线 GPT Store 后,公布 300 万个 GPTs 之余,也将与用户日常消费活动息息相关的徒步路线指南“AllTrails”放在推荐榜单上。
2/2/2024 2:22:00 PM
王悦
- 1
资讯热榜
GPT-5 登场?OpenAI 预告北京时间明天凌晨 1 时直播
月之暗面开源 Kimi-K2:万亿参数,超强Agent,全线 SOTA
AI Programming Tools Gradually Shift to Terminal Interface, Future Development May Be Transformed Completely!
19种玩法超全总结!即梦 AI 垫图指南(附提示词)
Moon's Dark Side Kimi K2 API is Slow, Being Optimized Intensively!
Apple MLX Supports NVIDIA CUDA, AI Developers Benefit from Cost and Efficiency
从聊天记录到数字资产:MIRIX 让记忆可买卖
ChatGPT 有望原生支持编辑 Excel 和 PPT 文件,OpenAI 挑战微软 Office
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
Anthropic
英伟达
代码
智能体
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
生成式
腾讯
苹果
LLM
神经网络
AI新词
3D
Claude
研究
生成
机器学习
AI for Science
计算
xAI
人形机器人
Sora
AI视频
Agent
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
预测
大型语言模型
深度学习
伟达
RAG
Transformer
具身智能
视觉
神器推荐
亚马逊
视频生成
AGI
Copilot
DeepMind
模态
LLaMA
文本