视听语音分离
ICLR 2024 | 为音视频分离提供新视角,清华大学胡晓林团队推出RTFS-Net
视听语音分离(AVSS)技术旨在通过面部信息从混合信号中分离出目标说话者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用,改进在嘈杂环境中语音信号质量。传统的视听语音分离方法依赖于复杂的模型和大量的计算资源,尤其是在嘈杂背景或多说话者场景下,其性能往往受到限制。为了突破这些限制,基于深度学习的方法开始被研究和应用。然而,现有的深度学习方法面临着高计算复杂度和难以泛化到未知环境的挑战。具体来说,当前视听语音分离方法存在如下问题:时域方法:可提供高质量的音频分离效果,但由于参数较多,计算复杂度较高,处理速度
3/6/2024 2:24:00 PM
机器之心
- 1
资讯热榜
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
Databricks与OpenAI达成1亿美元合作,推动 AI 集成新篇章
美国七巨头,OpenAI、Claude、xAI后训练都找他要专家,时薪高达500刀!史上增长最快公司CEO:大模型处于评测时代
学三年动画被AI秒杀,OpenAI要拍电影,好莱坞不敢买账
用同一组提示词,横向测评30+热门AI绘画平台(下)
日本游戏公司中超半数已采用 AI 技术,任天堂因版权顾虑保持谨慎
让大模型合成检查器:UIUC团队挖出Linux内核90余个长期潜伏漏洞
无标签进化:EVOL-RL用“多数选择+新颖变异”破解大模型“熵坍缩”困局
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉