Mozilla开源语音数据集已拥有超两万小时内容,新增支持粤语、闽南语

2023-01-25 16:57     来源:IT之家   阅读量:7887   

本周早些时候,Mozilla宣布,其通用语音数据集现在包含超过20,000小时的内容,世界各地的任何人都可以用来改进他们的语音识别软件,几乎是一年前的两倍。

Mozilla开源语音数据集已拥有超两万小时内容,新增支持粤语、闽南语

本站了解到,最新的英文数据集为71 GB,支持的语言比以往任何时候都多,包括提格雷语,闽南语,梅多马里语,孟加拉语,托基波纳语和粤语。

根据Mozilla的说法,公共语音项目允许任何人向该项目贡献自己的声音,从而使虚拟助理能够理解更多的口音此外,通用语音项目是开源的,这确保了大型技术公司无法垄断它,并为小型开发者和公司提供了构建有竞争力的产品和服务的机会

Mozilla在最新数据集版本中指出的亮点如下:

六种新语言:提格雷语,闽南语,梅多马里语,孟加拉语,托基波纳语和粤语。

27种语言拥有至少100小时的语音数据,包括孟加拉语,泰语,巴斯克语和弗里斯兰语。

9种语言拥有至少500小时的语音数据,包括基尼亚卢旺达语,加泰罗尼亚语和斯瓦希里语。

9种语言中至少45%的性别标签为女性,包括马拉地语,迪维希语和卢甘达语。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

特别推荐