首页 > 新闻动态 > 行业资讯 > 语音大模型引领自然交互新时代，景联文科技推出高质量语音大模型数据库

语音大模型引领自然交互新时代，景联文科技推出高质量语音大模型数据库

时间：2024-07-03 09:24:21

作者：景联文科技

浏览：次

近期，OpenAI正式发布语音大模型GPT-4o，可以综合利用语音、文本和视觉信息进行推理，扮演一个个人语音交互助手。

在音频处理方面，它不仅能识别和转录多种口音和方言，改变语音的速度音调和振动，还能进行声音模仿和合成，创造出自然流畅的语音内容。

高质量语音数据不仅可以丰富大语言模型处理和生成语音的能力，还能影响模型对语言深层次意义的理解，是推动人工智能迈向更加全面、自然交互的关键要素。

景联文科技是一家专业的大模型数据服务商，推出语音大模型数据库，致力于为不同训练阶段的算法精准匹配高质量数据资源。

语音大模型数据

普通话 65万小时真实人音，无背景杂音，24k真实采样率

数据规模

总时长：大于65万小时

播音人数：大于10000人

内容规模：大于6000本（部）

数据内容

语音语言: 中文普通话

语音来源: 真人主播；涵盖男女老少

内容形式: 包括单人、双人及多人录制的有声书和广播（影视）剧；其中有声书类型包括各类玄幻、都市、言情等网络小说和畅销出版物；广播（影视）剧包括小说、经典影视剧等改编录制。

质量参数

语音质量评估（PESQ）> 2

信噪比（SI-SDR）> 10

真实采样率> 20K（其中大于24K 的占比超过95% ），单通道

交付内容和格式

交付物内容:

语音文件+数据清单.xlsx

交付物总大小: 约150TB

数据准确率99%，所有数据均经过严格流程质检。

该数据集提供了丰富、清晰、准确的语音语料，主播不仅涵盖了男女老少真人的口音和不同语速，还包括了不同的情感、语调和表达方式。经过我司严格的筛选和编辑，确保语音的品质和格式符合大模型训练的需求。

景联文科技拥有丰富的语音数据采集项目经验，自建了专业的语音采集录音室，有高度还原真实场景能力，在全国30多个省市有近一万人的被采集人员储备，全球范围内也有采集渠道，支持多语种、多方言语音采集。支持语音识别ASR采集、语音合成TTS采集、唤醒词采集、多人对话采集、车载语音采集、普通话采集、方言采集、英语采集、小语种采集、近远场采集、语音VAD采集等。

支持AI算法预处理，支持本地化部署和SAAS服务。通过智能化的标注平台产品赋能AI训练数据行业，能够有效提高人机协作效率扩大产能，及时调整方案做好逾期风险管控，准确把控数据质量问题，为语音相关企业提供处理大语音数据的能力，节省企业的时间和开发成本，实现人力驱动向技术驱动的重要升级，为行业赋能。

获取样例请登录景联文科技官网咨询客服。/ai/

或直接发送需求至邮箱：[email protected]

景联文科技｜数据采集｜数据标注｜大语言模型数据集

助力人工智能技术，赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有，商业转载请联系景联文科技获得授权，非商业转载请注明出处。

上一篇：赋能心理大模型，景联文科技推出高质量心理大模型数据库下一篇：景联文科技打造高质量图文推理问答数据集，赋能大语言模型提升推理能力

返回列表

首页

民用数据服务

数据采集

数据标注

AI数据集

智能标注平台

假指纹制作

大模型数据集

智能标注平台

新闻动态

关于我们

语音大模型引领自然交互新时代，景联文科技推出高质量语音大模型数据库

相关推荐

景联文科技：精准语音标注，驱动语音技术新发展

模型观察室专栏：OpenAI上线满血版o1，最强大模型来了！

数据标注引领AI发展——景联文科技助力智能化转型与高质量数据处理

智能数据标注，驱动未来 —— 景联文科技引领AI技术革新

高质量数据标注推动AI技术革新——景联文科技引领数据服务新潮流

景联文科技：高质量数据采集标注服务引领AI革新

热门文章

最新文章

19157628936

AI数据集

大模型数据集

智能标注平台

新闻动态

关于我们