搜狗公司于12月14日正式宣布推出了一項(xiàng)創(chuàng)新的人機(jī)交互技術(shù)——唇語(yǔ)識(shí)別系統(tǒng),這是業(yè)內(nèi)*對(duì)外展示的唇語(yǔ)識(shí)別技術(shù)。該系統(tǒng)通過(guò)機(jī)器視覺(jué)技術(shù),無(wú)需依賴聲音,僅憑觀察說(shuō)話人的唇部動(dòng)作,就能準(zhǔn)確解讀其所說(shuō)內(nèi)容。
在搜狗舉辦的媒體溝通會(huì)上,唇語(yǔ)識(shí)別系統(tǒng)進(jìn)行了現(xiàn)場(chǎng)演示,展示了其強(qiáng)大的識(shí)別能力。這一技術(shù)結(jié)合了機(jī)器視覺(jué)與自然語(yǔ)言處理,相較于傳統(tǒng)的語(yǔ)音識(shí)別產(chǎn)品,其研發(fā)難度要大得多。
搜狗采用了復(fù)雜的端到端深度神經(jīng)*技術(shù),對(duì)中文唇語(yǔ)進(jìn)行了序列建模,并進(jìn)行了數(shù)千小時(shí)的真實(shí)唇語(yǔ)數(shù)據(jù)訓(xùn)練。在非特定人開(kāi)放口語(yǔ)測(cè)試集上,搜狗唇語(yǔ)識(shí)別系統(tǒng)的準(zhǔn)確率已超過(guò)60%,在特定場(chǎng)景如車載、智能家居等環(huán)境下,準(zhǔn)確率甚至高達(dá)90%。值得注意的是,中文唇語(yǔ)識(shí)別的難度要高于英文,因?yàn)橹形膿碛兴膫€(gè)聲調(diào),且聲韻母組合復(fù)雜,建模數(shù)量遠(yuǎn)超英文。
搜狗開(kāi)發(fā)唇語(yǔ)識(shí)別技術(shù)的初衷,是為了解決嘈雜環(huán)境下的語(yǔ)音識(shí)別準(zhǔn)確度問(wèn)題。目前,搜狗希望通過(guò)兩種途徑來(lái)解決這一問(wèn)題:一是硬件層面的語(yǔ)音增強(qiáng)技術(shù),通過(guò)屏蔽噪音來(lái)提高識(shí)別準(zhǔn)確性;二是增加多模態(tài)信息,如唇語(yǔ)識(shí)別的圖像信息,以輔助語(yǔ)音識(shí)別。
作為人機(jī)交互的一種新形式,唇語(yǔ)識(shí)別技術(shù)具有廣泛的應(yīng)用前景。在車載場(chǎng)景下,唇語(yǔ)識(shí)別可以規(guī)避周圍噪音對(duì)語(yǔ)音指令的干擾,確保人車交互的準(zhǔn)確性和穩(wěn)定性。在公共場(chǎng)所,唇語(yǔ)識(shí)別可以保護(hù)說(shuō)話內(nèi)容的私密性。在安防領(lǐng)域,唇語(yǔ)識(shí)別技術(shù)可以幫助*人員從監(jiān)控視頻中獲取重要的講話信息,為公共安全提供有力支持。此外,唇語(yǔ)識(shí)別技術(shù)還具有巨大的公益價(jià)值,可以幫助先天性聽(tīng)障人群或老年人更好地理解和表達(dá)自己。
搜狗近年來(lái)一直致力于自然語(yǔ)言技術(shù)的研究,在語(yǔ)音識(shí)別、語(yǔ)義理解、機(jī)器翻譯等領(lǐng)域取得了顯著成果,并成功實(shí)現(xiàn)了產(chǎn)品落地。此次推出唇語(yǔ)識(shí)別技術(shù),將進(jìn)一步推動(dòng)AI行業(yè)的技術(shù)革新和發(fā)展。