亞馬遜的Alexa AI團隊目前正在嘗試探測幸福和悲傷等情緒的方法,這些工作已于今年早些時候在研究中發(fā)表。據(jù)彭博社報道,亞馬遜正在開發(fā)一種用于情緒檢測的可穿戴設備,人們可以用它來了解周圍人的感受。
該項目已經(jīng)開展多年了,在2017年,亞馬遜已經(jīng)開始探索情緒識別AI,但只能感知用戶的聲音中的沮喪,“談論它將如何應用還為時過早,我們已經(jīng)在線下探索如何使用它進行數(shù)據(jù)選擇,但是在這一點上沒有任何內(nèi)容可以分享?!?/p>
模型如何運作
亞馬遜對情緒檢測的野心在最近幾個月發(fā)表的兩篇論文中可見一斑。兩個項目都使用南加州大學(USC)的數(shù)據(jù)集訓練模型,這些數(shù)據(jù)集包括演員約12小時的對話。然后注釋10000個句子的數(shù)據(jù)集以反映情緒。
“Multimodal and Multi-view Models for Emotion Recognition”檢測到六大情緒:憤怒,厭惡,恐懼,快樂,悲傷和驚訝。
情緒可以通過三個維度的數(shù)值直接描述:效價,即談論情緒的積極性或消極性,激活水平,這是情緒的能量,然后是支配、控制的影響。
多模式方法分析來自音頻的聲學和詞匯信號,以檢測情緒。亞馬遜Alexa高級應用科學家Viktor Rozgic解釋說,聲學研究語音和語音特性,詞匯研究單詞序列。
Wang表示,“聲學特征或多或少地描述了你如何說話的風格,而詞匯特征正在描述內(nèi)容。如示例所示,它們對于情感聯(lián)系都很重要。因此,在提取特征之后,它們被輸入模型,在我們的例子中,這將是不同的神經(jīng)網(wǎng)絡架構(gòu),然后最終做出預測,在這種情況下是憤怒,悲傷和中性情緒狀態(tài)?!?/p>
亞馬遜最近分享的另一篇論文“Improving Emotion Classification through Variational Inference of Latent Variables”解釋了一種實現(xiàn)微觀改善效果以預測情緒的方法。
為了從音頻記錄中提取情感,將語音記錄中的人類交互映射到一系列光譜向量,饋送到遞歸神經(jīng)網(wǎng)絡,然后用作分類器來預測憤怒,快樂,悲傷和中性狀態(tài)。
“我們正在將聲學特征提供給編碼器,編碼器正在將這些特征轉(zhuǎn)換為較低維度的表示,解碼器可以重建原始音頻特征并預測情緒狀態(tài),”Rozgic說,“在這種情況下,它的價值有三個層次:消極,中立和積極,而對抗性學習的作用是以特定的方式規(guī)范學習過程,使學習的表現(xiàn)更好?!?/p>
情緒和機器智能
除了提供有關亞馬遜情緒檢測野心的詳細信息外,re:Mars的一次會議探討了情緒識別和情緒表征理論的歷史,機器學習,信號處理和支持向量機等分類器的進步也推動了工作的進展。
該技術的應用范圍從測量反應到視頻游戲設計,商業(yè)廣告等營銷材料,尋找道路憤怒或疲勞的動力汽車安全系統(tǒng),甚至幫助學生使用計算機輔助學習。該技術還可用于幫助人們更好地了解他人的情緒。
論文:
arxiv.org/abs/1906.10198
developer.amazon.com/zh/blogs/alexa/post/2d8c2128-eec9-44cc-9274-444940eb0a4d/using-adversarial-training-to-recognize-speakers-emotions
End