搜狗公司于12月14日正式宣布推出了一項創(chuàng)新的人機交互技術(shù)——唇語識別系統(tǒng),這是業(yè)內(nèi)*對外展示的唇語識別技術(shù)。該系統(tǒng)通過機器視覺技術(shù),無需依賴聲音,僅憑觀察說話人的唇部動作,就能準確解讀其所說內(nèi)容。
在搜狗舉辦的媒體溝通會上,唇語識別系統(tǒng)進行了現(xiàn)場演示,展示了其強大的識別能力。這一技術(shù)結(jié)合了機器視覺與自然語言處理,相較于傳統(tǒng)的語音識別產(chǎn)品,其研發(fā)難度要大得多。
搜狗采用了復雜的端到端深度神經(jīng)*技術(shù),對中文唇語進行了序列建模,并進行了數(shù)千小時的真實唇語數(shù)據(jù)訓練。在非特定人開放口語測試集上,搜狗唇語識別系統(tǒng)的準確率已超過60%,在特定場景如車載、智能家居等環(huán)境下,準確率甚至高達90%。值得注意的是,中文唇語識別的難度要高于英文,因為中文擁有四個聲調(diào),且聲韻母組合復雜,建模數(shù)量遠超英文。
搜狗開發(fā)唇語識別技術(shù)的初衷,是為了解決嘈雜環(huán)境下的語音識別準確度問題。目前,搜狗希望通過兩種途徑來解決這一問題:一是硬件層面的語音增強技術(shù),通過屏蔽噪音來提高識別準確性;二是增加多模態(tài)信息,如唇語識別的圖像信息,以輔助語音識別。
作為人機交互的一種新形式,唇語識別技術(shù)具有廣泛的應用前景。在車載場景下,唇語識別可以規(guī)避周圍噪音對語音指令的干擾,確保人車交互的準確性和穩(wěn)定性。在公共場所,唇語識別可以保護說話內(nèi)容的私密性。在安防領(lǐng)域,唇語識別技術(shù)可以幫助*人員從監(jiān)控視頻中獲取重要的講話信息,為公共安全提供有力支持。此外,唇語識別技術(shù)還具有巨大的公益價值,可以幫助先天性聽障人群或老年人更好地理解和表達自己。
搜狗近年來一直致力于自然語言技術(shù)的研究,在語音識別、語義理解、機器翻譯等領(lǐng)域取得了顯著成果,并成功實現(xiàn)了產(chǎn)品落地。此次推出唇語識別技術(shù),將進一步推動AI行業(yè)的技術(shù)革新和發(fā)展。