亞馬遜的Alexa AI團(tuán)隊(duì)目前正在嘗試探測幸福和悲傷等情緒的方法,這些工作已于今年早些時(shí)候在研究中發(fā)表。據(jù)彭博社報(bào)道,亞馬遜正在開發(fā)一種用于情緒檢測的可穿戴設(shè)備,人們可以用它來了解周圍人的感受。
該項(xiàng)目已經(jīng)開展多年了,在2017年,亞馬遜已經(jīng)開始探索情緒識(shí)別AI,但只能感知用戶的聲音中的沮喪,“談?wù)撍鼘⑷绾螒?yīng)用還為時(shí)過早,我們已經(jīng)在線下探索如何使用它進(jìn)行數(shù)據(jù)選擇,但是在這一點(diǎn)上沒有任何內(nèi)容可以分享?!?/p>
模型如何運(yùn)作
亞馬遜對情緒檢測的野心在最近幾個(gè)月發(fā)表的兩篇論文中可見一斑。兩個(gè)項(xiàng)目都使用南加州大學(xué)(USC)的數(shù)據(jù)集訓(xùn)練模型,這些數(shù)據(jù)集包括演員約12小時(shí)的對話。然后注釋10000個(gè)句子的數(shù)據(jù)集以反映情緒。
“Multimodal and Multi-view Models for Emotion Recognition”檢測到六大情緒:憤怒,厭惡,恐懼,快樂,悲傷和驚訝。
情緒可以通過三個(gè)維度的數(shù)值直接描述:效價(jià),即談?wù)撉榫w的積極性或消極性,激活水平,這是情緒的能量,然后是支配、控制的影響。
多模式方法分析來自音頻的聲學(xué)和詞匯信號(hào),以檢測情緒。亞馬遜Alexa高級(jí)應(yīng)用科學(xué)家Viktor Rozgic解釋說,聲學(xué)研究語音和語音特性,詞匯研究單詞序列。
Wang表示,“聲學(xué)特征或多或少地描述了你如何說話的風(fēng)格,而詞匯特征正在描述內(nèi)容。如示例所示,它們對于情感聯(lián)系都很重要。因此,在提取特征之后,它們被輸入模型,在我們的例子中,這將是不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),然后最終做出預(yù)測,在這種情況下是憤怒,悲傷和中性情緒狀態(tài)?!?/p>
亞馬遜最近分享的另一篇論文“Improving Emotion Classification through Variational Inference of Latent Variables”解釋了一種實(shí)現(xiàn)微觀改善效果以預(yù)測情緒的方法。
為了從音頻記錄中提取情感,將語音記錄中的人類交互映射到一系列光譜向量,饋送到遞歸神經(jīng)網(wǎng)絡(luò),然后用作分類器來預(yù)測憤怒,快樂,悲傷和中性狀態(tài)。
“我們正在將聲學(xué)特征提供給編碼器,編碼器正在將這些特征轉(zhuǎn)換為較低維度的表示,解碼器可以重建原始音頻特征并預(yù)測情緒狀態(tài),”Rozgic說,“在這種情況下,它的價(jià)值有三個(gè)層次:消極,中立和積極,而對抗性學(xué)習(xí)的作用是以特定的方式規(guī)范學(xué)習(xí)過程,使學(xué)習(xí)的表現(xiàn)更好。”
情緒和機(jī)器智能
除了提供有關(guān)亞馬遜情緒檢測野心的詳細(xì)信息外,re:Mars的一次會(huì)議探討了情緒識(shí)別和情緒表征理論的歷史,機(jī)器學(xué)習(xí),信號(hào)處理和支持向量機(jī)等分類器的進(jìn)步也推動(dòng)了工作的進(jìn)展。
該技術(shù)的應(yīng)用范圍從測量反應(yīng)到視頻游戲設(shè)計(jì),商業(yè)廣告等營銷材料,尋找道路憤怒或疲勞的動(dòng)力汽車安全系統(tǒng),甚至幫助學(xué)生使用計(jì)算機(jī)輔助學(xué)習(xí)。該技術(shù)還可用于幫助人們更好地了解他人的情緒。
論文:
arxiv.org/abs/1906.10198
developer.amazon.com/zh/blogs/alexa/post/2d8c2128-eec9-44cc-9274-444940eb0a4d/using-adversarial-training-to-recognize-speakers-emotions
End