
據了解,本次競賽數據由聯合主辦方之一的標貝科技全程提供支持,近400小時的高質量成人朗讀數據和兒童朗讀、對話等參賽數據,分別取自標貝自有5000小時成人中文朗讀語音數據庫、1800小時的少兒語音對話數據庫,充分滿足競賽需要,匹配語音識別模型訓練。
事實上,賽事數據一直是本屆SLTCSRC一大吸睛點,讓賽事的關注度與參與度隨之提升。而兒童語音數據更是廠商的關注點。緣由該數據在智慧教育、早教產品、智能音箱等眾多語音交互場景中有著廣泛應用基礎。但兒童語言因其聲線與吐字等原因,語音和語言特性不同于成人,有著天然的技術辨別難度。并且在訓練過程中,如果沒有覆蓋大量帶有標簽的兒童語音,兒童的ASR的準確性仍明顯低于成年人。因而,高質量兒童ASR數據的重要性不言而喻。
從本次賽事報名情況來看,2021SLTCSRC共吸引了近60家來自全球不同地區(qū)的高校、科研機構與廠商報名,覆蓋中國大陸和香港、美國、新加坡、愛爾尼亞等地區(qū),其中國內廠商參賽隊伍不乏像愛奇藝、小米、網易、華為、馬上金融等業(yè)內熟知廠商,而國內高校和科研機構匯聚了清華、浙大、上海交大、中科院自動化研究所等。本屆CSRC競賽受到了以上機構和廠商的積極參與,但仍有部分隊伍未能如期報名,表示希望有機會再次參賽,應用數據做研究。
另外,本次賽事數據的價值還體現在了本屆SLTCSRC論文方面。截至目前,基于標貝科技提供的兒童語音識別數據,已有包括SLT官方、小米、CUHK(香港中文大學)等機構發(fā)表學術論文。論文的發(fā)布不僅代表著當前業(yè)內極高的學術水平,更為從業(yè)者提供專業(yè)參考指南。
本屆SLTCSRC競賽結果和論文已揭曉,但行業(yè)對數據的需求卻未停止。為更好地推動兒童語音產品研發(fā),標貝科技針對本次未能參賽以及對兒童ASR數據有更多需求的伙伴,特此提供以下2套特定價格的數據產品
1、CSRC數據
成人朗讀數據340小時有效時長
兒童朗讀數據28小時有效時長
兒童對話數據29小時小時有效時長
2、標貝科技兒童語音識別數據集
兒童中文語音數據庫有效時長1800小時
兒童英文語音數據庫有效時長500小時
兒童中英文語音數據庫有效時長500小時

歡迎對以上數據感興趣的行業(yè)伙伴,與我們聯系
郵箱:marketing@data-baker.com
標貝科技官網數據首頁:https://www.data-baker.com/#/data/index/distinguish
