AI在线 AI在线

粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

12月6日至7日,第十届语言服务高级论坛在广州大学举行。 会上,粤语语料库建设与大模型评测实验室重磅发布了其研发的 AI-DimSum 多模态粤语语料库平台,标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。 突破低资源困境 广州大学教授齐佳音介绍,粤语在网络世界中属于“低资源语言”。

12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室重磅发布了其研发的 AI-DimSum 多模态粤语语料库平台,标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。

突破低资源困境 广州大学教授齐佳音介绍,粤语在网络世界中属于“低资源语言”。该平台围绕“数字中文建设”和“大湾区文化数字化”需求,构建了一个基于岭南文化、面向AI应用的多模态语料数据生态系统,遵循“标准先行、数据可溯、服务可用”原则。

虚拟偶像 虚拟主播 虚拟人 演唱2 AI绘画

一体化、模块化基础设施 AI-DimSum平台由语料采集、标注、大模型对接、确权检索、质量评估、管理及应用商店等七个子系统构成,实现了从数据采集到模型接入与应用发布的一体化、模块化流程。

海量语料支撑 该语料库汇聚了丰富的多模态资源,为AI训练提供坚实基础:

  • 文本:超过100万字(涵盖新闻、文学等)。

  • 音视频:完成3000小时高保真语音标注及1TB以上音视频资料。

  • 影视:包含《功夫熊猫》《大圣归来》《外来媳妇本地郎》等带有粤语字幕与标注的作品。

  • 评测:构建了超过20万道粤语大模型内容安全多模态评测题。

该平台的发布将极大提升粤语在大模型时代的应用能力和文化传承价值。

相关资讯

OpenAI开源客户服务代理框架 加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架,标志着该公司在企业级AI解决方案布局上迈出重要一步。 该框架通过提供透明工具链和清晰实施案例,旨在推动智能代理系统从实验室走向实际商业应用。 技术细节与核心优势.
6/19/2025 2:01:33 PM
AI在线

专家揭示构建稳健AI编排层的最佳实践

随着企业加速采用人工智能技术,如何有效管理复杂的AI工作流程成为关键挑战。 最新行业分析指出,建立稳健的AI编排层是解决"提示词混乱"问题的有效方案。 AI编排框架的选择困境.
6/19/2025 2:01:28 PM
AI在线

2025年VentureBeat女性AI大奖入围名单正式公布

2025年6月18日,科技媒体VentureBeat正式公布了2025年度女性AI大奖的最终入围名单。 该奖项旨在表彰人工智能领域做出杰出贡献的女性从业者,推动行业多元化发展。 奖项背景与意义VentureBeat女性AI大奖创立于2020年,已成为AI行业最具影响力的女性专项荣誉之一。
6/19/2025 2:01:33 PM
AI在线