如何理解一个包含汉语、英语、韩语、日语、阿拉伯语、越南语等40种语言的段落?大多数人做不到的事,训练有素的人工智能机器都能做到。
在最近举行的Xtreme(多语言编码器跨语言传递评测)中,哈工大HFL团队以84.1的平均分高居榜首,创造了新的世界纪录。
XTREME评测旨在全面考察模型的多语言理解和跨语言迁移能力。与以往单一语言的自然语言理解评测任务不同,XTREME中的每项任务都涵盖了多种语言,并包括句子对分类、序列标注、阅读理解和句子检索,共四大类九项任务。
那么,机器是如何实现多语言理解的呢?大赛负责人、哈工大讯飞联合实验室核心技术研究员杨子清介绍,他们通过自主研发的跨语言比较学习技术,利用自我监督学习和知识转移,鼓励模型学习不同语言的语义相似度,同时创新性地融入细粒度的语言特征,帮助模型克服训练不足的困难,解决低资源语言学习不足的问题,使其适应不同语言的形态特征。
“这意味着通过本地语言学习,机器可以通过类比少量其他语言语料库来学习这种语言,减少了大量收集语料库、语音标注等工作。”杨子晴补充解释。
除了多语言,科大讯飞还在少数民族语言处理中引入了预训练模型CINO(中国少数民族预训练语言模型)。
杨子晴说,“小语种处理是中文信息处理不可或缺的一部分,也体现了中文信息处理的多样性。这项技术的进步将极大地改善中国少数民族的语言学习。”
由于国内少数民族语言语料库的稀缺和获取的困难,相关的技术研究相对匮乏,主流的多语种模型并不能很好的处理国内的少数民族语言。“希望未来能进一步推动业界对小语种相关技术的研究,推动小语种相关技术的应用。未来将有可能支持多语言搜索引擎和其他少数民族语言的文本应用工具。”杨子晴说。(思慕)
来源:光明网
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。