AI在线 AI在线

粤语数字化新突破!AI-DimSum 多模态语料库平台正式上线

在广州市的广州大学,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会于12月6日至7日成功举行。 此次大会上,广州大学的哲学社会科学重点实验室发布了全新的 AI-DimSum 粤语语料库平台,这标志着粤语的数字化发展迈入了一个崭新的阶段。 粤语,作为汉语的一个重要方言,全球使用人数超过亿人,但在互联网领域却一直被视为低资源语言。

在广州市的广州大学,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会于12月6日至7日成功举行。此次大会上,广州大学的哲学社会科学重点实验室发布了全新的 AI-DimSum 粤语语料库平台,这标志着粤语的数字化发展迈入了一个崭新的阶段。

粤语,作为汉语的一个重要方言,全球使用人数超过亿人,但在互联网领域却一直被视为低资源语言。对此,广州大学网络空间安全学院的教授齐佳音指出,AI-DimSum 平台围绕 “数字中文建设” 和粤港大湾区的文化数字化需求,致力于构建一个基于岭南文化、面向人工智能应用的多模态粤语语料数据生态系统。该系统遵循 “标准先行、数据可溯、服务可用” 的原则,为粤语的学习和研究提供了良好的基础。

元宇宙 科幻 赛博朋克 绘画 (1)大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

AI-DimSum 平台设有七个子系统,包括语料采集、标注、模型对接、确权检索、质量评估、管理以及应用商店等,形成了一个完整的数据处理链条。这意味着从数据的采集到最终的应用发布,整个过程都可以实现高效的协同工作,推动粤语语料库的构建与管理。

目前,AI-DimSum 粤语语料库已汇聚了超过100万字的文本数据,涵盖新闻、文学和社交媒体等多个领域。此外,该平台还完成了3000小时的高保真语音标注及超过1TB 的音视频资料,其中包括粤语字幕的热门动画和影视作品,如《功夫熊猫》和《小猪佩奇》。平台提供的多用途粤语生活场景音频和文字语料也超过1万句,并收录了丰富的岭南文化图像素材,累计达到10000张。

值得一提的是,AI-DimSum 还构建了一个包含6669条权威词条和30000条扩展词条的粤语安全语料库,以及超过20万道粤语内容安全多模态评测题。这些成果不仅为粤语的学习和应用提供了丰富的资源,也将为未来的粤语大模型开发奠定坚实的基础。

相关资讯

OpenAI开源客户服务代理框架 加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架,标志着该公司在企业级AI解决方案布局上迈出重要一步。 该框架通过提供透明工具链和清晰实施案例,旨在推动智能代理系统从实验室走向实际商业应用。 技术细节与核心优势.
6/19/2025 2:01:33 PM
AI在线

专家揭示构建稳健AI编排层的最佳实践

随着企业加速采用人工智能技术,如何有效管理复杂的AI工作流程成为关键挑战。 最新行业分析指出,建立稳健的AI编排层是解决"提示词混乱"问题的有效方案。 AI编排框架的选择困境.
6/19/2025 2:01:28 PM
AI在线

2025年VentureBeat女性AI大奖入围名单正式公布

2025年6月18日,科技媒体VentureBeat正式公布了2025年度女性AI大奖的最终入围名单。 该奖项旨在表彰人工智能领域做出杰出贡献的女性从业者,推动行业多元化发展。 奖项背景与意义VentureBeat女性AI大奖创立于2020年,已成为AI行业最具影响力的女性专项荣誉之一。
6/19/2025 2:01:33 PM
AI在线