好未来开源近600小时中英文混合语音数据集，填补教育AI研究空白中国汽车网

作为教育科技的先行者，好未来近日开放了一批长达587小时教学场景中的中英文混合语音数据集。该数据集源自语种混合最具代表性场景之一——教师英语授课场景。好未来此次开放的数据集是迄今教育行业最大的语音开源数据集之一，也是目前已知全球较大的中英文混合场景开源数据集，有效填补了中英文混合语音识别研究的数据稀缺空白。

算法、算力、数据是人工智能技术发展的三大基石。一个AI模型从设计到训练，再到部署使用，整个过程中，数据集的选择十分重要。高质量的数据集往往能够提高模型训练的质量和预测的准确率。由于行业的天然壁垒，智能教育领域目前开放的数据资源非常有限，而经过清理、标注、注释、结构化的数据，更为少见。

作为教育行业内人工智能技术领域的代表企业，好未来很早就开始布局人工智能技术的教育场景落地，也在多年的实践中沉淀了大量优质教育资源和海量教学数据，并推动了多项智慧教育解决方案的落地。同时，作为智慧教育国家新一代人工智能开放创新平台的承建者，好未来肩负着为智慧教育行业关键技术创新提供支撑和服务的使命，将通过开源开放的形式，加速资源共享与技术融合创新。

早在2020年3月，好未来就开放了第一批教育开源数据集——“小学低年级算式数据集”。该数据集包括33550张算式图像，均来源于小学1~3年级学生的数学练习册和作业，涵盖各类数学口算题目类型。每张图像经过手工剪裁，并提供相应标注。随后，好未来又陆续开放了手写中英文、手写公式、中文语音识别、语音情感等多个数据集。

值得一提的是，好未来此前开放的手写公式数据集成为了第五届中国创新挑战赛智慧教育专题赛“教育手写公式识别”比赛的官方数据集。该比赛依托于智慧教育国家新一代人工智能开放创新平台，由北京市科学技术委员会与好未来联合承办，吸引了来自清华大学、北京大学、中国科学技术大学等国内高校及科研机构，以及阿里、腾讯、百度等一线互联网公司数百支队伍参赛。该数据集数据量更为丰富、数据场景更为复杂，均超过之前的同类开源数据。

历经18年的高速发展，好未来已成为国内领先的科技教育公司。为实现技术资源共享与技术落地经验复用，好未来内部建立起跨业务的技术互通机制，积极推进技术中台建设，推动内部开源。这也是好未来对行业开源开放的坚实基础。随着智慧教育国家新一代人工智能开放创新平台的深入建设，好未来积累的大量教育场景数据集也会逐步开源开放。同时也将通过建立数据标准和数据服务机制，吸引更多的教育机构和科技企业，开放共享更丰富多元的教育数据，共同构建智慧教育行业生态体系。

详见下表：

好未来开源近600小时中英文混合语音数据集，填补教育AI研究空白

精彩推荐

最新新闻