正常狀態(tài)下,人在說話時心理情感的波動會引起聲壓、語氣、語速、停頓時間和發(fā)聲器官的微小變化,以及通過人體大腦皮層的生理反應(yīng),利用心理學、生理學、神經(jīng)科學、信號分析處理、人工智能等的諸多前沿科技,檢測分析語音中某些特征參數(shù)的變化,因此,檢信智能通過監(jiān)測這些特征變化實現(xiàn)心理情感分析。
根據(jù)當前語音情感分析的不足,檢信智能通過多年語音情感識別技術(shù)的開發(fā)經(jīng)驗,結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享等特征,對序列的非線性特征在學習方面具有一定優(yōu)勢,利用基于LSTM(LongShort-Term Memory)長短期記憶網(wǎng)絡(luò),將一種時間循環(huán)神經(jīng)網(wǎng)絡(luò),應(yīng)用于處理和預測時間序列中間隔和延遲相對較長的重要事件,解決長序列訓練過程中的梯度消失和梯度爆炸問題。相比普通的RNN,LSTM能夠在更長的序列中有更好的表現(xiàn),通過將卷積操作引入長短時記憶網(wǎng)絡(luò)中,構(gòu)建完整的語音心理情感網(wǎng)絡(luò)模型,將語音進行統(tǒng)一歸一化處理,再對統(tǒng)一歸一化處理的語音進行分割之后,對割分的語音加窗分幀處理,并建立變長數(shù)據(jù)的計算方式,將卷積操作引入長短時記憶網(wǎng)絡(luò)中,實現(xiàn)完整的語音情感識別網(wǎng)絡(luò)模型,并識別平靜、高興、吃驚、悲傷、憤怒、厭惡和恐懼7種情感功能。
目前市場上語音心理情感分析存在如下:
(1)心理情感與語音特征的邏輯關(guān)系不夠明確;
(2)從語音數(shù)據(jù)采集到語音特征的提取降噪處理不夠?qū)е滦畔⒌膿p失,而損失的信息影響最終心理情感檢測的 效果;
(3)分類算法效果一定程度上依賴人為提取的語音特征,算法本身不具有特征學習能力。
根據(jù)語音情感數(shù)據(jù),檢信Allemotion平臺根據(jù)特有的情緒建模及神經(jīng)網(wǎng)絡(luò)獲得被測試者每一時刻或在說話片段中的害怕、排斥、沖突、期待、壓力、興奮、邏輯、比率、概率、分心、猶豫、認知、緊張、壞感、想象、思考、潛意識、潛在情緒。
(1)系統(tǒng)的識別時延低于250ms。
因為在線語音情感識別,如果時延過高不但影響用戶體驗,而且對后續(xù)的語音情感識別請求的處理時間就更加長,發(fā)生堵塞。時延低是系統(tǒng)最重要的要求,要求系統(tǒng)對每個語音情感識別的請求處理時間低于250ms。
(2)能夠處理大規(guī)模并發(fā)任務(wù)請求。檢信ALLEMOTION語音情感識別具有并發(fā)任務(wù)處理能力。如果對語音情感識別任務(wù)的處理是串行的,則依然滿足不了大規(guī)模的應(yīng)用。
(3)利用采集針對性的語料進行模型訓練,并在引擎模塊中語音情感特征提取前加入語音降噪處理步驟,提高了情感識別率。原始語音信號從頻譜圖上可以看到語音數(shù)據(jù)中含有一些不規(guī)則信號的噪聲。下圖是經(jīng)過降噪之后的語音信號變得有規(guī)律,可以發(fā)現(xiàn)降噪效果還是明顯的。經(jīng)過降噪之后重新訓練,明顯提高模型的效果,說明經(jīng)過降噪的語音有效降低環(huán)境噪聲和設(shè)備底噪對語音情感識別的影響。
(4) 采用群體決策優(yōu)化神經(jīng)網(wǎng)絡(luò)方法。
檢信ALLEMOTION采用群體決策的方法將訓練集按照不同的組合條件,并選出每次交叉驗證在測試集上識別效果最好的模型組成一個神經(jīng)網(wǎng)絡(luò)群,當進行識別時,神經(jīng)網(wǎng)絡(luò)群中的每個模型分別對當前樣本進行判斷給出情感標簽,最后使用投票的方式給出最終識別結(jié)果。
(5)語音情感識別精度達到達到82%
(6)檢信ALLEMOTION語音情感識別工作穩(wěn)定性達到99.5% ,運行可靠且有能力處理大規(guī)模并發(fā)任務(wù)。