678CHAT AI资讯 粤语数字化有新招!AI-DimSum多模态语料库平台上线啦

粤语数字化有新招!AI-DimSum多模态语料库平台上线啦

近日,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学顺利召开。这场为期两天的盛会不仅汇聚了来自全国各地的语言学、人工智能与文化数字化领域的专家学者,更见证了粤语数字化进程中的一个重要里程碑——由广州大学哲学社会科学重点实验室正式发布的 AI-DimSum 粤语语料库平台。

粤语数字化有新招!AI-DimSum多模态语料库平台上线啦插图

作为汉语方言体系中极具代表性的分支,粤语在全球拥有超过一亿使用者,却长期在数字世界中处于“低资源语言”的边缘地位。针对这一现状,广州大学网络空间安全学院教授齐佳音在会上强调,AI-DimSum 平台的建设紧扣“数字中文”战略方向,深度响应粤港澳大湾区文化数字化发展的迫切需求。该平台以岭南文化为底色,聚焦人工智能应用场景,打造了一个集标准制定、数据溯源与服务落地于一体的多模态粤语语料生态系统,真正实现了从理论研究到实际应用的闭环。

图源备注:图片由AI生成,图片授权服务商Midjourney

AI-DimSum 平台架构清晰、功能完备,共包含七大核心子系统:语料采集、语料标注、模型对接、确权检索、质量评估、数据管理以及应用商店。这种模块化设计不仅保障了语料处理流程的高度协同性,也极大提升了数据从原始采集到终端应用的流转效率,为粤语语料库的可持续建设提供了技术支撑和制度保障。

截至目前,AI-DimSum 已累计整合超100万字的高质量文本数据,内容覆盖新闻报道、经典文学作品及社交媒体对话等多个维度。在语音资源方面,平台已完成3000小时高保真粤语语音的精细化标注,并收录逾1TB 的音视频资料,其中包括《功夫熊猫》《小猪佩奇》等广受欢迎的动画影视作品的粤语配音版本。此外,平台还构建了超过1万句涵盖日常交流、公共服务等多元生活场景的粤语音频与对应文本,并配套上万张反映岭南风土人情的图像素材,形成图文音视一体化的丰富语料矩阵。

尤为引人注目的是,AI-DimSum 还专门开发了粤语内容安全语料库,内含6669条权威词条与3万条扩展词条,并配套构建了超过20万道多模态评测题目。这些资源不仅为粤语教育、智能客服、语音识别等应用场景提供了坚实的数据基础,更为未来粤语大模型的研发铺平了道路,有望在不久的将来推动粤语在人工智能时代的全面“复活”与创新传承。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/21872.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部