讓機(jī)器聽(tīng)懂人聲,這是人們長(zhǎng)久以來(lái)的夢(mèng)想。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,涉及多學(xué)科研究領(lǐng)域。不同領(lǐng)域的研究成果為語(yǔ)音識(shí)別的發(fā)展做出了貢獻(xiàn)。語(yǔ)音識(shí)別技術(shù)是一種高科技,它可以讓機(jī)器通過(guò)識(shí)別和理解的過(guò)程將語(yǔ)音信號(hào)轉(zhuǎn)換成相應(yīng)的文本或命令。
計(jì)算機(jī)語(yǔ)音識(shí)別過(guò)程與人類語(yǔ)音識(shí)別過(guò)程基本相同。當(dāng)前主流的語(yǔ)音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)大致可以分為三個(gè)部分:
(1)語(yǔ)音特征提?。耗康氖菑恼Z(yǔ)音波形中提取隨時(shí)間變化的語(yǔ)音特征序列。
(2)聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,也是語(yǔ)音識(shí)別系統(tǒng)中關(guān)鍵的部分。聲學(xué)模型通常是從獲得的語(yǔ)音特征中訓(xùn)練生成的,目的是為每個(gè)發(fā)音建立一個(gè)發(fā)音模板。在識(shí)別過(guò)程中,將未知語(yǔ)音特征與聲學(xué)模型(模式)進(jìn)行匹配和比較,計(jì)算未知語(yǔ)音的特征向量序列與每個(gè)發(fā)音模板的距離。聲學(xué)模型的設(shè)計(jì)與語(yǔ)言發(fā)音的特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)的大小、語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率和靈活性有很大影響。
(3)語(yǔ)義理解:計(jì)算機(jī)對(duì)語(yǔ)音識(shí)別結(jié)果的語(yǔ)法和語(yǔ)義進(jìn)行分析。理解語(yǔ)言的含義,以便做出相應(yīng)的反應(yīng)。它通常是通過(guò)語(yǔ)言模型來(lái)實(shí)現(xiàn)的。
語(yǔ)音識(shí)別技術(shù)的應(yīng)用:語(yǔ)音識(shí)別過(guò)程實(shí)際上就是一個(gè)識(shí)別過(guò)程。就像人們?cè)诼?tīng)語(yǔ)音時(shí),不會(huì)將語(yǔ)音與語(yǔ)言的語(yǔ)法結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)分開(kāi),因?yàn)楫?dāng)語(yǔ)音的發(fā)音模糊時(shí),人們可以利用這些知識(shí)來(lái)指導(dǎo)理解語(yǔ)言的過(guò)程。對(duì)于機(jī)器來(lái)說(shuō),語(yǔ)音識(shí)別系統(tǒng)也需要使用這些知識(shí),但鑒于語(yǔ)音信號(hào)的可變性、動(dòng)態(tài)性和瞬態(tài)性,語(yǔ)音識(shí)別技術(shù)與人腦仍有一定差距。因此,在語(yǔ)音識(shí)別技術(shù)的選擇、應(yīng)用模式和系統(tǒng)開(kāi)發(fā)等方面都需要專業(yè)的設(shè)計(jì)和調(diào)試,以達(dá)到良好的應(yīng)用效果。