12月6日至7日,第十届语言服务高级论坛在广州大学隆重召开。会议期间,由粤语语料库建设与大模型评测实验室倾力打造的 AI-DimSum 多模态粤语语料库平台 正式亮相,这一里程碑式的成果标志着全球超亿级使用者的粤语,在人工智能与数字文化深度融合的浪潮中,迈出了关键一步。

破解低资源语言困局 据广州大学齐佳音教授介绍,尽管粤语在现实生活中使用广泛,但在数字语境下长期面临“低资源语言”的尴尬处境——缺乏系统化、高质量的数据支撑,严重制约了其在AI时代的应用拓展。AI-DimSum平台正是围绕“数字中文”国家战略与粤港澳大湾区文化数字化转型的双重需求而生,致力于打造一个以岭南文化为底色、面向智能技术落地的多模态语料生态系统,并严格遵循“标准先行、数据可溯、服务可用”的核心理念。
模块化架构赋能全流程 该平台并非单一工具,而是一套高度集成、灵活扩展的基础设施体系,由语料采集、智能标注、大模型对接、确权检索、质量评估、数据管理及应用商店等七大子系统有机组成。这种一体化、模块化的设计,不仅打通了从原始数据获取到AI模型训练、再到应用场景部署的完整链路,也为后续的语言资源开发提供了可复用、可迭代的技术范式。
多模态数据构筑坚实底座 AI-DimSum平台汇聚了海量、多样、高质的粤语语料资源,为大模型训练与评测奠定了坚实基础:
-
文本语料:已积累超100万字,覆盖新闻报道、文学作品、社交媒体等多种体裁,真实反映当代粤语使用生态。
-
音视频资源:完成3000小时高保真粤语语音的精细化标注,并整合了超过1TB的音视频素材,确保声学与语义的高度对齐。
-
影视内容:精选《功夫熊猫》《大圣归来》《外来媳妇本地郎》等经典影视作品,提供带粤语字幕及语义标注的版本,既保留文化韵味,又满足技术训练需求。
-
安全评测体系:构建了逾20万道多模态评测题目,专门用于评估大模型在粤语语境下的内容安全性、文化适配性与语言准确性。
随着AI-DimSum平台的正式发布,粤语不仅有望在智能客服、语音助手、机器翻译等AI应用场景中焕发新生,更将在数字时代延续其独特的文化生命力,为中华语言多样性保护与湾区文化软实力提升注入强劲动能。
