玩护士睡老师勾搭女下属_欧美变态另类牲交ZOZO_亚洲国产欧美另类久久综合_午夜福利无码a级_亚洲综合一二三_天天干免费视频播放_先锋美女情趣网站在线观看_免费一级毛片全部免费播放瓯_天堂精品mv在线观看99_影音先锋影AV色资源站

檢信智能ALLEMOTION OS 語(yǔ)義文本情感識(shí)別原理
日期:2021.09.20   來源:湖南檢信智能
檢信ALLEMOTION

檢信智能ALLEMOTION OS 語(yǔ)義文本情感識(shí)別原理

首先,當(dāng)然是文本預(yù)處理

輸入文本,在將輸入文本轉(zhuǎn)化成向量之前,我們需要將標(biāo)點(diǎn)符號(hào)、括號(hào)、問號(hào)等刪去,只留下字母、數(shù)字和字符, 同時(shí)將大寫字母轉(zhuǎn)化為小寫,去除停用詞。

效果如下圖

 image.png

 

然后就是將文本轉(zhuǎn)化為詞向量(即漢字要轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的數(shù)字類(矩陣啥的))

在將深度學(xué)習(xí)運(yùn)用于文本情感分析的過程中,我們需要考慮網(wǎng)絡(luò)模型的輸入數(shù)據(jù)的形式。在其他例子中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)使用像素值作為輸入,logistic回歸使用一些可以量化的特征值作為輸入,強(qiáng)化學(xué)習(xí)模型使用獎(jiǎng)勵(lì)信號(hào)來進(jìn)行更新。通常的輸入數(shù)據(jù)是需要被標(biāo)記的標(biāo)量值。當(dāng)我們處理文本任務(wù)時(shí),可能會(huì)想到利用這樣的數(shù)據(jù)管道。

 image.png

但是,這樣的處理方式存在著很多問題。我們不能像點(diǎn)積或者反向傳播那樣在一個(gè)字符串上執(zhí)行普通的運(yùn)算操作。所以在這里我們不能將字符串作為輸入,而是需要將文本轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的格式,由于計(jì)算機(jī)只能識(shí)別數(shù)字,因此我們可以將文本中的每一個(gè)詞都轉(zhuǎn)化為一個(gè)向量,也稱作詞向量。詞向量是用一個(gè)向量的形式表示文本中的一個(gè)詞,通過這種轉(zhuǎn)化方式就能采用機(jī)器學(xué)習(xí)來把任何輸入量化成我們需要的數(shù)值表示,然后就可以充分利用計(jì)算機(jī)的計(jì)算能力,計(jì)算得出最終想要的結(jié)果,保證了操作的可行性。

 image.png

 

如圖所示,我們可以將上面的這段文本輸入數(shù)據(jù)轉(zhuǎn)化成一個(gè) 16*D 的輸入矩陣。

 image.png

我們希望創(chuàng)建這種詞向量的方式是可以表示單詞及其在上下文中意義的。例如,我們希望單詞 love” 和 “adore” 這兩個(gè)詞在向量空間中是有一定的相關(guān)性的,因?yàn)樗麄兊囊馑枷嗨?,而且都在類似的上下文中使用,因此他們的空間相距距離會(huì)相對(duì)較小。而“love”、“adore”這兩個(gè)單詞與單詞“baseball”的意思有很大的不同,詞性也不相同,那么“love”、“adore”這兩個(gè)單詞的向量與單詞“baseball”的向量相距距離就會(huì)相對(duì)較大。單詞的向量表示也被稱之為詞嵌入。

 image.png

 

特征提取:

 

為了得到這些詞嵌入,我們采用一個(gè)很著名的模型 Word2Vec”?!?/span>Word2Vec”是近幾年很火的算法,它通過神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法來訓(xùn)練N-gram 語(yǔ)言模型,并在訓(xùn)練過程中求出word所對(duì)應(yīng)的vector的方法。它是將詞表征為實(shí)數(shù)值向量的一種高效的算法模型,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為 K 維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語(yǔ)義上的相似。在這個(gè)模型中,每個(gè)詞的詞向量是根據(jù)上下文的語(yǔ)境來進(jìn)行推斷的,如果兩個(gè)詞在上下文的語(yǔ)境中可以被互換,那么這就表示這兩個(gè)詞的意思相似,詞性相似,那么他們的詞向量中相距距離就非常近。在自然語(yǔ)言中,上下文的語(yǔ)境對(duì)分析詞語(yǔ)的意義是非常重要的。

 

簡(jiǎn)單來說,Word2Vec這個(gè)模型的作用就是從一大堆句子(以 Wikipedia 為例)中為每個(gè)獨(dú)一無二的單詞進(jìn)行建模,并且輸出一個(gè)唯一的向量,Word2Vec 模型的輸出被稱為一個(gè)嵌入矩陣。該嵌入矩陣將包含訓(xùn)練語(yǔ)料庫(kù)中每個(gè)不同單詞的向量。 傳統(tǒng)上,嵌入矩陣可以包含超過300萬(wàn)個(gè)單詞向量。

 

Word2Vec模型是通過對(duì)數(shù)據(jù)集中的每個(gè)句子進(jìn)行訓(xùn)練,在其上滑動(dòng)一個(gè)固定大小的窗口,并試圖預(yù)測(cè)窗口的中心詞,給出其他詞。使用損失函數(shù)和優(yōu)化程序,該模型為每個(gè)唯一字生成向量。這個(gè)訓(xùn)練過程的細(xì)節(jié)可能會(huì)變得有點(diǎn)復(fù)雜,所以我們現(xiàn)在要跳過細(xì)節(jié),但這里主要的一點(diǎn)是,任何深度學(xué)習(xí)方法對(duì)于NLP任務(wù)的輸入可能都會(huì)有單詞向量作為輸入。

 

后面特征提取這一塊,應(yīng)該會(huì)將用word2vec提取的方式改為用doc2vec來提取,不過具體修改時(shí)間待定,得看我啥時(shí)候能將這一操作學(xué)會(huì)(哈哈噠)。

 

Google 已經(jīng)幫助我們?cè)诖笠?guī)模數(shù)據(jù)集上訓(xùn)練出來了 Word2Vec 模型,它包括 1000 億個(gè)不同的詞,在這個(gè)模型中,谷歌能創(chuàng)建300萬(wàn)個(gè)詞向量,每個(gè)向量維度為 300。在理想情況下,我們將使用這些向量來構(gòu)建模型,但是因?yàn)檫@個(gè)單詞向量矩陣太大了(3.6G),因此在此次研究中我們將使用一個(gè)更加易于管理的矩陣,該矩陣由 GloVe 進(jìn)行訓(xùn)練得到。矩陣將包含 400000 個(gè)詞向量,每個(gè)向量的維數(shù)為 50。

這里有用到一些.npy文件,是通過glove已經(jīng)轉(zhuǎn)好的,存為了npy文件。

 

我們將導(dǎo)入兩個(gè)不同的數(shù)據(jù)結(jié)構(gòu),一個(gè)是包含 400000 個(gè)單詞的 Python 列表,一個(gè)是包含所有單詞向量值的 400000*50 維的嵌入矩陣。

結(jié)果對(duì)比:

 image.png

CNN網(wǎng)絡(luò)層數(shù)包括:卷積層,池化層,全連接層。

 

CNN神經(jīng)網(wǎng)絡(luò)模型運(yùn)用于文本情感分析時(shí)效果不如LSTM神經(jīng)網(wǎng)絡(luò)模型效果好,經(jīng)典的CNN模型在文本情感分析正確率只有71.2%,而對(duì)經(jīng)典進(jìn)行改進(jìn)之后,增加了卷積層和池化層,CNN模型的正確率得到了提高,但正確率也是只有77.25%,仍然比不上只用了一層LSTM網(wǎng)絡(luò)的正確率高。從結(jié)果對(duì)比中我們可以知道,CNN不光可以應(yīng)用于圖像處理領(lǐng)域,也能成功有效地對(duì)文本信息進(jìn)行分析,但LSTM在解決文本情感分析的問題時(shí)效果要比CNN好。

 

下面是一些運(yùn)行結(jié)果:

訓(xùn)練數(shù)據(jù)集的結(jié)果

 image.png

…,訓(xùn)練了800多個(gè)數(shù)據(jù),發(fā)現(xiàn)最高的時(shí)候準(zhǔn)確率在百分之七十幾,但是絕大多數(shù)穩(wěn)定在百分之五十左右,這個(gè)準(zhǔn)確度還是有點(diǎn)低的,后面加強(qiáng)學(xué)習(xí),改進(jìn)代碼,應(yīng)該可以將準(zhǔn)確度提高。(方法推薦:改改epoch可能會(huì)提高準(zhǔn)確度,模型收斂+準(zhǔn)確率)

 

輸出詞列表的長(zhǎng)度,詞向量的維數(shù)

 image.png

 

維度的個(gè)數(shù)

 image.png

這個(gè)項(xiàng)目采用的數(shù)據(jù)集是IMDB數(shù)據(jù)集,這個(gè)數(shù)據(jù)集是一個(gè)關(guān)于電影評(píng)論的數(shù)據(jù)集,在這個(gè)數(shù)據(jù)集上做訓(xùn)練和測(cè)試。這個(gè)數(shù)據(jù)集包含 25000 條電影數(shù)據(jù),其中 12500 條正向數(shù)據(jù),12500 條負(fù)向數(shù)據(jù)。將其中的23000個(gè)文本評(píng)論作為訓(xùn)練集,將剩下的2000個(gè)文本評(píng)論作為測(cè)試集。

 

下面為正面評(píng)價(jià)文本和負(fù)面評(píng)價(jià)文本示例

image.png

 

總結(jié):

CNNLSTM兩種神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到了文本情感分析的問題當(dāng)中,使用Word2Vec模型及它的子矩陣GloVe來將文本信息進(jìn)行預(yù)處理,轉(zhuǎn)換成了詞向量及向量矩陣,使用了IMDB數(shù)據(jù)集來對(duì)模型進(jìn)行訓(xùn)練,并用TensorFlow進(jìn)行建模、訓(xùn)練。

版權(quán)聲明:本文為CSDN博主「醒了的追夢(mèng)人」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。


相關(guān)推薦
  • 檢信智能致一年級(jí)家長(zhǎng),孩子需要情緒啟蒙教育
    檢信智能致一年級(jí)家長(zhǎng),孩子必須了解情緒啟蒙教育 小學(xué)一年級(jí)是孩子情感認(rèn)知發(fā)展的重要階段,他們必須懂得以下心理情緒內(nèi)容:一、認(rèn)識(shí)基本情緒1. 快樂:當(dāng)孩子做游戲、得到表?yè)P(yáng)或與朋友玩耍時(shí),他們會(huì)感到快樂。要教會(huì)他們識(shí)別并分享這種美好的感受。2. 悲傷:失去心愛的玩具或與朋友發(fā)生爭(zhēng)執(zhí)時(shí),孩子可能會(huì)感到難過。要教會(huì)他們用語(yǔ)言來表達(dá)這種情緒,并學(xué)會(huì)安慰自己。3. 生氣:當(dāng)需求得不到滿足或被誤解時(shí),孩子可能會(huì)生氣。要教育他們用合適的方式表達(dá)憤怒,如告訴他們生氣時(shí)可以暫時(shí)離開現(xiàn)場(chǎng)冷靜一下。二、理解情緒的表達(dá)1. 面部表情:教會(huì)孩子識(shí)別不同的面部表情,如微笑、哭泣、生氣等,幫助他們理解情緒可以通過面部表情來表達(dá)。2. 語(yǔ)言表達(dá):鼓勵(lì)孩子用語(yǔ)言來描述自己的感受,這有助于他們更好地理解和管理自己的情緒。三、情緒管理技巧1. 深呼吸與放松:當(dāng)孩子感到緊張或不安時(shí),教他們進(jìn)行深呼吸和放松技巧,幫助他們平靜下來。2. 分享與傾聽:鼓勵(lì)孩子與家長(zhǎng)、老師或朋友分享自己的情緒,同時(shí)也要學(xué)會(huì)傾聽他人的感受。3. 尋求幫助:教育孩子在遇到難以處理的問題時(shí),要勇敢地向家長(zhǎng)或老師尋求幫助。四、培養(yǎng)積極情緒1. 鼓勵(lì)與表?yè)P(yáng):家長(zhǎng)和老師要經(jīng)常給予孩子鼓勵(lì)和表?yè)P(yáng),讓他們體驗(yàn)到成功的喜悅和自信。2. 培養(yǎng)興趣愛好:鼓勵(lì)孩子參加各種活動(dòng),培養(yǎng)他們的興趣愛好,讓他們?cè)诳鞓分谐砷L(zhǎng)。3. 學(xué)會(huì)感恩:教育孩子珍惜身邊的人和事,學(xué)會(huì)感恩,從而培養(yǎng)積極向上的心態(tài)。通過以上內(nèi)容的學(xué)習(xí),小學(xué)一年級(jí)的孩子將能夠更好地理解和管理自己的情緒,提高情感認(rèn)知能力,為未來的成長(zhǎng)打下堅(jiān)實(shí)的基礎(chǔ)。
    2024-09-09
  • 檢信智能榮譽(yù)刊文-入庫(kù)國(guó)人榮譽(yù)獎(jiǎng)庫(kù)
    檢信智能榮譽(yù)刊文-入庫(kù)國(guó)人榮譽(yù)獎(jiǎng)庫(kù) 2024年5月29日,檢信智能榮獲第二十三屆中國(guó)科學(xué)家論壇科技創(chuàng)新優(yōu)秀(發(fā)明)成果榮譽(yù)稱號(hào)的榮譽(yù)刊文,入庫(kù)國(guó)人榮譽(yù)獎(jiǎng)庫(kù)。 在2024年5月25日-26日于北京會(huì)議中心舉辦的第二十三屆中國(guó)科學(xué)家論壇上,備受矚目的檢信智能非接觸式心理參數(shù)智能分析與測(cè)評(píng)系統(tǒng)發(fā)明專利憑借其心理情緒數(shù)字化的發(fā)明創(chuàng)新成果,榮獲了第二十三屆中國(guó)科學(xué)家論壇科技創(chuàng)新優(yōu)秀(發(fā)明)成果稱號(hào)。這一榮譽(yù)是對(duì)檢信智能八年來一直堅(jiān)持在心理情緒識(shí)別領(lǐng)域內(nèi)的貢獻(xiàn)以及檢信智能在數(shù)字心理健康領(lǐng)域卓越成就的一種肯定。 從2016年成立起,檢信智能作為我國(guó)心理情緒數(shù)字化領(lǐng)域的國(guó)家高新技術(shù)企業(yè),檢信智能創(chuàng)始人李劍峰在中國(guó)人民公安大學(xué)武伯欣教授心測(cè)理論的指導(dǎo)下,一直堅(jiān)持不懈地從事心理情緒數(shù)字化的研究開發(fā)工作,采用LSTM時(shí)序神經(jīng)網(wǎng)絡(luò)模型,在2017實(shí)現(xiàn)了我國(guó)自主知識(shí)產(chǎn)權(quán)的首套語(yǔ)音心理情緒分析系統(tǒng)的上市,并在山東諸城市檢察院的首次應(yīng)用。檢信智能在2018年到2019年開發(fā)人臉表情識(shí)別、面幀情緒識(shí)別、以及眼動(dòng)軌跡識(shí)別等,多維度心理情緒識(shí)別不斷地取得卓越的成績(jī)。 檢信智能在本次第二十三屆中國(guó)科學(xué)家論壇收獲不僅是獲獎(jiǎng)的一種榮譽(yù),由于心理健康監(jiān)測(cè)涉及到不同行業(yè)不同領(lǐng)域的各個(gè)企事業(yè)單位、教育、部隊(duì)等,因此參會(huì)3000多家企業(yè)通過對(duì)檢信智能AI心理情緒技術(shù)的了解,很多企業(yè)紛紛表達(dá)了對(duì)該技術(shù)在不同行業(yè)應(yīng)用的需求。例如產(chǎn)品銷售代理、系統(tǒng)集成,開放API接口等合作模式。未來檢信會(huì)再接再勵(lì),繼續(xù)研發(fā),為提供全方位多層次的有效解決方 案,為國(guó)家打造全民健康、自信社會(huì)的發(fā)展目標(biāo)而不斷努力前行。
    2024-08-27
  • 檢信AI心理健康與職業(yè)能力測(cè)評(píng)系統(tǒng)V3.0——獲得計(jì)算機(jī)軟件著作權(quán)登記證書
    檢信AI心理健康與職業(yè)能力測(cè)評(píng)系統(tǒng)V3.0--獲得計(jì)算機(jī)軟件著作權(quán)登記證書 2024.7月,我司的檢信AI心理健康與職業(yè)能力測(cè)評(píng)系統(tǒng)V3.0獲得計(jì)算機(jī)軟件著作權(quán)登記證書。 湖南檢信智能科技有限公司,成立于2016年,是一家專注于心理情緒情感算法及應(yīng)用開發(fā)的人工智能型企業(yè),核心開發(fā)團(tuán)隊(duì)具有清華大學(xué)、國(guó)防科技大學(xué)教育背景,運(yùn)用“語(yǔ) 音情緒識(shí)別,人臉表情識(shí)別,面篩情緒識(shí)別,眼動(dòng)情緒識(shí)別”等核心自主知識(shí)產(chǎn)權(quán)技術(shù),結(jié)合湘雅醫(yī)學(xué)院心理專家團(tuán)隊(duì)提供心理情緒分類模型為基礎(chǔ),首創(chuàng)檢信 Allemotion 心理情緒監(jiān)測(cè)平臺(tái),應(yīng)用開發(fā)的主導(dǎo)產(chǎn)品有多維度心理情緒測(cè)評(píng)系統(tǒng) 崗前安全評(píng)測(cè)系統(tǒng)和心理意圖分析系統(tǒng)。 檢信智能截止目前已累計(jì)申請(qǐng)20個(gè)發(fā)明專利,其中有效發(fā)明專利7個(gè),有效實(shí)用新型1個(gè),有效外觀設(shè)計(jì)1個(gè),軟件著作權(quán)6個(gè),當(dāng)前在天眼查及企查查排名等級(jí)卓越,科創(chuàng)分97分,在軟件和信息技術(shù)服務(wù)業(yè)超過99%的同行企業(yè),這是多方對(duì)我司的肯定,未來我們將繼續(xù)以技術(shù)創(chuàng)新升級(jí)為核心,從優(yōu)化產(chǎn)品組合,健全客戶服務(wù)體系,提升公司運(yùn)行效率,加大與友公司合作等方面著手,踔厲奮發(fā)、篤行不怠,積極推進(jìn)接下來一年的工作,爭(zhēng)取邁向新的臺(tái)階,取得新的成就。
    2024-08-08