19157628936

数据上新 | 景联文科技推出高质量方言音文对数据集,驱动方言语音大模型技术革新

时间:2024-07-29 09:33:33

作者:景联文科技

浏览:

中国电信人工智能研究院(TeleAI正式对外发布星辰超多方言语音识别大模型。这是业内首个支持30种方言自由混说的语音识别大模型,也是目前国内支持最多方言的语音识别大模型。

 

方言语音大模型具有广泛的应用场景,可以应用于语音助手、智能家居、智慧客服等领域,还可以让说方言的群体能便捷地与外界沟通

 

image.png 

 

数据作为训练大模型的养料,质量在很大程度上决定了大模型本身的性能。高质量方言语音数据一直处于匮乏状态已成为方言语音大模型的难题之一

 

景联文科技是一家专业的大模型数据服务商,推出方言音文对数据集,为方言语音大模型赋能。

 

方言音文对数据集  

数据集规模:1万小时音频数据,涵盖23种方言。

 

数据内容:每个语音都有相应的文本精准转录每个方言类别都包含数千小时的音频录音,涵盖了日常对话、新闻播报、故事讲述等多个场景。语音清晰无误,没有过多的背景噪音干扰

 

年龄分布:说话者的年龄分布应该广泛,包括儿童、青少年、成年人和老年人

 

性别比例:男性和女性说话者的比例应均衡

 

方言覆盖范围涵盖四川话、粤语、绍兴话等23种方言。

 

应用场景:

语音识别:训练和评估语音识别模型,特别是在方言识别上的性能。

自然语言处理:用于开发针对特定方言的自然语言理解和生成系统。

语言学研究:为语言学家提供丰富的研究材料,帮助他们更好地了解方言的特点和发展趋势。

文化保护:通过记录方言,有助于保存和传承地区文化和语言多样性。

 

技术特点:

高质量录音:所有录音均采用专业设备,在控制良好的环境中录制,确保音频质量。

标准化转录:文本转录遵循一定的规则和标准,便于模型训练和评估。

广泛代表性:覆盖的方言种类广泛,能够代表中国的方言多样性。

多场景覆盖:包含多种不同的对话场景,使数据集更加丰富和实用。

 

在数据安全与合规方面,景联文科技已通过ISO9001质量、ISO27001信息安全、ISO27701国际隐私安全管理认证,积极参与8项国家数据交换格式和数据安全标准制定,牢固构筑数据保护的基石。

 

获取样例请登录景联文科技官网咨询客服。https://www.jinglianwen.com/ai/

 

或直接发送需求至邮箱:[email protected]

 

景联文科技|数据采集|数据标注|多模态数据集

助力人工智能技术,赋能传统产业智能化转型升级

 

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。


做AI行业客户的数据参谋
客户咨询电话:19157628936
地址:杭州市萧山区杭州湾信息港E幢7楼
微信公众号 客户咨询微信