玩护士睡老师勾搭女下属_欧美变态另类牲交ZOZO_亚洲国产欧美另类久久综合_午夜福利无码a级_亚洲综合一二三_天天干免费视频播放_先锋美女情趣网站在线观看_免费一级毛片全部免费播放瓯_天堂精品mv在线观看99_影音先锋影AV色资源站

檢信專注心理

用技術創(chuàng)新做行業(yè)先驅

檢信ALLEMOTION

檢信智能亮相第57屆中國高等教育博覽會

檢信智能亮相第57屆中國高等教育博覽會 2022年8月4日-6日，為期三天的第57屆中國高等教育博覽會，在西安舉行，在疫情期間，全國各地千余所高校及智慧校園企業(yè)，實訓設備企業(yè)及心理健康測評企業(yè)參會。本屆高博會以“校企聚合·產教融合”為主題，并致力于在教育界領域打造 “展覽展示”“高端論壇”“特色活動”“高端發(fā)布”“云端推送”等五大版塊以科技教育為藍圖，持續(xù)鞏固和擴大六大展區(qū)：實驗室及科研儀器設備類企業(yè)有大華儀器、福祿克、勝利儀器等，信息化及智慧教育類有華為科技、語音識別企業(yè)科大訊飛，實訓及機電類有上海育聯(lián)等，醫(yī)學教育及健康類有AI心理測評檢信智能，后勤及平安校園類武漢普仁易維康等，以及體育設施及用品類，展覽展示8萬平米。在這次展會上，檢信智能AI心理健康測評系統(tǒng)第一次亮相中國高等教育博覽會就受到廣大媒體和觀眾的好奇，環(huán)球時報，CRI國際在線，新浪網(wǎng)，搜狐網(wǎng)，網(wǎng)易新聞，中國儀器設備網(wǎng)等媒體均有相應的新聞報道文章提到；檢信智能ALLEMOTION心理測評的亮點是采用視覺識別技術作為心理情緒數(shù)據(jù)的采集手段，代替?zhèn)鹘y(tǒng)心理量表的答題模式,檢測時間短、用戶體驗度好、數(shù)據(jù)客觀等優(yōu)點;在這次參會觀眾中，有河南省心理學會專家，北京師范大學心理教授，也有中國人民解放軍空軍軍醫(yī)大學的心理咨詢老師等都體驗檢信ALLEMOTION心理測評系統(tǒng)，參展觀眾認為用戶體驗度好，通過60S的視覺數(shù)據(jù)采集，在系統(tǒng)數(shù)據(jù)計算、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)計上，結合深度學習、心理畫像模型等高科技技術，實現(xiàn)心理分類評估，是傳統(tǒng)心理量表的有效補充，可以為群體性人群的心理篩查，情緒檢測提供有效的落地解決方案。為我國教育、社區(qū)、事業(yè)單位等真正做到群體性人群心理情緒早篩查、早發(fā)現(xiàn)、早疏導、零診斷的目的。

2022-08-09
檢信智能推出首款Allemotion OS心理情緒開發(fā)操作系統(tǒng)

檢信智能推出首款Allemotion OS心理情緒開發(fā)操作系統(tǒng)檢信Allemotion OS心理情緒開發(fā)操作系統(tǒng)是根據(jù)世界人工智能高速發(fā)展的特點,為實現(xiàn)腦機交互的行業(yè)需求，由檢信智能推出我國首款檢信Allemotion OS心理情緒開發(fā)操作系統(tǒng)。檢信Allemotion OS心理情緒開發(fā)操作系統(tǒng)集成了語音情感識別、人臉情感識別、微表情識別、以及肌肉微顫情緒識別、眼動識別、骨架識別、生理參數(shù)識別等功能。因此，檢信Allemotion OS心理情緒開發(fā)操作系統(tǒng)在開發(fā)上集成了多維度情感識別的優(yōu)勢，針對教育、安防、軍工、政府、人事管理、醫(yī)療等行業(yè)的應用特點，提供特定的二次開發(fā)。檢信Allemotion OS心理情緒開發(fā)操作系統(tǒng)是以特定的算法為基礎，結合人工智能深度學習的理論做優(yōu)化，建立了完整的Allemotion OS 情緒識別開發(fā)模型；在C++、Java、Pathon 等多語言的開發(fā)環(huán)境，實現(xiàn)了Allemotion OS 情緒開發(fā)系統(tǒng)數(shù)據(jù)的高效計算；提供數(shù)據(jù)推送服務，無需二次開發(fā)者讀取分類器的數(shù)據(jù)；提供websocket 接口 API 接口，符合響應式（reactive)和自適應（self-adaption)的開發(fā)需求；兼容蘋果Apple安卓Android系統(tǒng)的應用環(huán)境；情緒識別準確率達到91.3%。目前檢信Allemotion OS心理情緒開發(fā)操作系統(tǒng)已經應用與政府、教育、醫(yī)療、特殊崗位能力測試等行業(yè)，在性價比上得到了用戶的認可，具有良好的市場發(fā)展前景。

2022-08-08
恭賀檢信智能總經理李劍峰通過中國科學院科創(chuàng)中國-科技領袖培養(yǎng)項目

恭賀檢信智能總經理李劍峰通過中國科學院科創(chuàng)中國-科技領袖培養(yǎng)項目 2021年10月27日檢信智能總經理李劍峰依據(jù)檢信Allemotion面篩心理情緒測評系統(tǒng)項目，順利通過了中國科學院“科創(chuàng)中國-科技領袖”培養(yǎng)項目。中國科學院將利用中科資源大平臺，根據(jù)檢信智能公司和檢信Allemotion面篩心理情緒測評系統(tǒng)的具體情況，在項目融資、合作開發(fā)、院士專家資源等方面可以優(yōu)先合作。湖南檢信智能科技有限公司，2016年注冊成立，是一家專注于情感計算、圖像分析、心理情緒大數(shù)據(jù)服務的高科技智能型綜合性企業(yè)。通過了軍工武器裝備質量管理體系認證，擁有15項發(fā)明專利和多項軟件著作權，其中檢信Allemotion面篩心理情緒測評系統(tǒng)顛覆傳統(tǒng)心理量表測評工具，具有檢測時間短（60秒）、科學預警、實時檢測等特點，可廣泛應用于教育、醫(yī)療、政府、人力資源、企業(yè)等，具有很好的市場發(fā)展前景。

2021-12-07
檢信智能ALLEMOTION OS 語音情感識別——語音(聲音的預處理)

檢信智能ALLEMOTION OS 語音情感識別——語音(聲音的預處理)1. 語音信號（聲音是什么）聲音是由物體振動產生的聲波，是通過介質（空氣或固體、液體）傳播并能被人或動物聽覺器官所感知的波動現(xiàn)象，最初發(fā)出振動的物體叫聲源。聲音（語音消息）的基本模擬形式是一種稱為語音信號的聲學波。語音信號可以通過麥克風轉化成電信號，轉換成語音波形圖，如下圖為消息should we chase的波形圖。橫坐標表示時間，縱坐標表示振幅。文本should we chase按照發(fā)音可以表示成音素的形式[SH UH D - W IY - CH EY S]，聲波圖中的每一段表示一個音素，在ARBAbet音素集中包含近64 = 2^6個符號。聲音作為波的一種，頻率（聲源在一秒內振動的次數(shù)）和振幅是描述波的重要屬性，頻率的大小與我們通常所說的音高對應，而振幅影響聲音的大小。聲音可以被分解為不同頻率不同強度正弦波的疊加，正弦波是頻率成分最為單一的一種信號，任何復雜信號都可以看成由許許多多頻率不同、大小不等的正弦波復合而成。這種變換（或分解）的過程，稱為傅立葉變換，通過這種分解我們可以把時域圖轉為頻域圖。正弦信號表達式為y=Asin(ωx+φ)y=Asin?(ωx+φ)。其中A表示振幅。ω/2πω/2π表示頻率。對于（空氣中的）聲振動而言，振幅是聲壓與靜止壓強之差的最大值。其中聲壓是聲波在空氣中傳播時形成壓縮和稀疏交替變化的壓力增值。麥克風錄制聲音的原理就是將空氣中的壓力變動波轉化成電信號的變動。而我們平常說的聲音強度（響亮程度）就是由振幅決定的，聲音強度的單位是分貝（dB），計算公式如下，用實測聲壓和參考聲壓之比的常用對數(shù)（常用對數(shù)lg以10為底，自然對數(shù)ln以e為底）的20倍來表示。下式中分母是參考值的聲壓，通常為20微帕，人類能聽到的最小聲壓。分貝表示功率量之比時，等于功率強度之比的常用對數(shù)的10倍。分貝表示場量之比時，等于場強幅值之比的常用對數(shù)的20倍。語音鏈（聲音是怎么發(fā)出的）從語音信號的產生到感知的過程稱為語音鏈，如下圖所示：2 下面是語音信號產生的四個步驟：文本：消息以某種形式出現(xiàn)在說話者的大腦中，消息攜帶的信息可認為有著不同的表示形式，例如最初可能以英語文本的形式表示。假設書面語有32個符號，也就是2^5，用5個bit表示一個符號。正常的平均說話速率為15個符號每秒。上圖例子中有15個字母“should we chase”，持續(xù)了0.6秒，信息流的速率為15x5/0.6 = 125 bps。音素：為了說出這條消息，說話者隱式地將文本轉換成對應口語形式的聲音序列的符號表示，即文本符號轉成音素符號，音素符號用來描述口語形式消息的基本聲音及聲音發(fā)生的方式（即語速和語調）。ARBAbet音素集中包含近64 = 2^6個符號，用6個bit表示一個音素，上圖例子中有8個音素，持續(xù)了0.6秒，信息流的速率為8x6/0.6 = 80 bps，考慮描述信號韻律特征的額外信息（比如段長，音高，響度），文本信息編碼成語音信號后，總信息速率需要再加上100bps。發(fā)音：神經肌肉系統(tǒng)以一種與產生口語形式消息及其語調相一致的方式，移動舌頭，唇，牙齒，頜，軟腭，使這些聲道發(fā)聲器官按規(guī)定的方式移動，進而發(fā)出期望的聲音。刺激共振：聲道系統(tǒng)產生物理生源和恰當?shù)臅r變聲道形狀，產生上圖所示的聲學波形。前兩個階段的信息表示是離散的，用一些簡單假設就可以估計信息流的速率。但是后兩個階段信息是連續(xù)的，以關節(jié)運動的形式發(fā)出，想要度量這些連續(xù)信息，需要進行恰當?shù)牟蓸雍土炕@得等效的數(shù)字信號，才能估計出數(shù)據(jù)的速率。事實上，因為連續(xù)的模擬信號容易收到噪聲的影響，抗噪能力弱，通常會轉為離散的數(shù)字信號。在第三階段，進行采樣和量化后得到的數(shù)據(jù)率約為2000bps。在最后一個階段，數(shù)字語音波形的數(shù)據(jù)率可以從64kbps變化到700kbps。該數(shù)據(jù)是通過測量“表示語音信號時為達到想要的感知保真度”所需要的采樣率和量化計算得到的。比如，“電話質量”的語音處理需要保證寬帶為0~4kHz，這意味著采樣率為8000個樣本每秒（根據(jù)香農采樣定理，為了不失真地恢復模擬信號，采樣頻率應該不小于模擬信號頻譜中最高頻率的2倍），每個樣本可以量化成8比特，從而得到數(shù)據(jù)率64000bps。這種表示方式很容易聽懂，但對于大多數(shù)傾聽者來說，語音聽起來與說話者發(fā)出的原始語音會有不同。另一方面，語音波形可以表示成“CD質量”，采用44100個樣本每秒的采樣率，每個樣本16比特，總數(shù)據(jù)率為705600bps，此時復原的聲學波聽起來和原始信號幾乎沒有區(qū)別?，F(xiàn)在在音樂app上下載歌曲的時一般有四種音樂品質選擇，標準（128kbps），較高（192kbps），極高（320kbps），無損品質。將消息從文本表示轉換成采樣的語音波形時，數(shù)據(jù)率會增大10000倍。這些額外信息的一部分能夠代表說話者的一些特征比如情緒狀態(tài)，說話習慣等，但主要是由簡單采樣和對模擬信號進行精細量化的低效性導致的。因此，處于語音信號固有的低信息速率考慮，很多數(shù)字語音處理的重點是用更低的數(shù)據(jù)率對語音進行數(shù)字表示（通常希望數(shù)據(jù)率越低越好，同時保證重現(xiàn)語音信號的感知質量滿足需要的水平）。3 語音信號中的Analog-Digital Converter，“模-數(shù)”變換（聲音是怎么保存的）預濾波（反混疊濾波）：語音信號在采樣之前要進行預濾波處理。目的有兩個，一是抑制輸入信號各頻率分量中頻率超過fs/2的所有分量（fs為采樣頻率），以防止混疊干擾；二是抑制50Hz的電源工頻干擾。1.采樣：原始的語音信號是連續(xù)的模擬信號，需要對語音進行采樣，轉化為時間軸上離散的數(shù)據(jù)。采樣后，模擬信號被等間隔地取樣，這時信號在時間上就不再連續(xù)了，但在幅度上還是連續(xù)的。經過采樣處理之后，模擬信號變成了離散時間信號。采樣頻率是指一秒鐘內對聲音信號的采樣次數(shù)，采樣頻率越高聲音的還原就越真實越自然。在當今的主流采集卡上，采樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級，22.05KHz只能達到FM廣播的聲音品質，44.1KHz則是理論上的CD音質界限（人耳一般可以感覺到20-20K Hz的聲音，根據(jù)香農采樣定理，采樣頻率應該不小于最高頻率的兩倍，所以40KHz是能夠將人耳聽見的聲音進行很好的還原的一個數(shù)值，于是CD公司把采樣率定為44.1KHz），48KHz則更加精確一些。對于高于48KHz的采樣頻率人耳已無法辨別出來了，所以在電腦上沒有多少使用價值。2.量化：進行分級量化，將信號采樣的幅度劃分成幾個區(qū)段，把落在某區(qū)段的采樣到的樣品值歸成一類，并給出相應的量化值。根據(jù)量化間隔是否均勻劃分，又分為均勻量化和非均勻量化。均勻量化的特點為“大信號的信噪比大，小信號的信噪比小”。缺點為“為了保證信噪比要求，編碼位數(shù)必須足夠大，但是這樣導致了信道利用率低，如果減少編碼位數(shù)又不能滿足信噪比的要求”（根據(jù)信噪比公式，編碼位數(shù)越大，信噪比越大，通信質量越好）。通常對語音信號采用非均勻量化，基本方法是對大信號使用大的量化間隔，對小信號使用小的量化間隔。由于小信號時量化間隔變小，其相應的量化噪聲功率也減小（根據(jù)量化噪聲功率公式），從而使小信號時的量化信噪比增大，改善了小信號時的信噪比。量化后，信號不僅在時間上不再連續(xù)，在幅度上也不連續(xù)了。經過量化處理之后，離散時間信號變成了數(shù)字信號。3.編碼：在量化之后信號已經變成了數(shù)字信號，需要將數(shù)字信號編碼成二進制。“CD質量”的語音采用44100個樣本每秒的采樣率，每個樣本16比特，這個16比特就是編碼的位數(shù)。采樣，量化，編碼的過程稱為A/D轉換，如下圖所示。反過程為D/A轉換，因為A/D之前進行了預濾波，D/A轉換后面還需要加一個平滑濾波器。A/D轉換，D/A轉換，濾波這些功能都可以用一塊芯片來完成，在市面上能買到各種這樣的芯片。4 語音信號的預處理（聲音的預處理）語音信號的預處理一般包括預加重，分幀，加窗，端點檢測。預加重：求語音信號頻譜（頻譜是指時域信號在頻域下的表示方式，關于頻域和時域的理解如下圖所示），頻率越高相應的成分越小，高頻部分的頻譜比低頻部分的難求，為此要在預處理中進行預加重（Pre-emphasis）處理。預加重的目的是提高高頻部分，使信號的頻譜變得平坦，以便于頻譜分析或者聲道參數(shù)分析。預加重可在語音信號數(shù)字化時在反混疊濾波器之前進行，但一般是在語音信號數(shù)字化之后。短時分析：語音信號從整體來看是隨時間變化的，是一個非平穩(wěn)過程，不能用處理平穩(wěn)信號的數(shù)字信號處理技術對其進行分析處理。但是，由于不同的語音是由人的口腔肌肉運動構成聲道某種形狀而產生的響應，這種運動對于語音頻率來說是非常緩慢的，所以從另一方面看，雖然語音信號具有時變特性，但是在一個短時間范圍內（一般認為在10-30ms）其特性基本保持相對穩(wěn)定，即語音具有短時平穩(wěn)性。所以任何語音信號的分析和處理必須建立在“短時”的基礎上，即進行“短時分析”。分幀：為了進行短時分析，將語音信號分為一段一段，其中每一段稱為一幀，一般取10-30ms，為了使幀與幀之間平滑過渡，保持連續(xù)性，使用交疊分段的方法，可以想成一個指針p從頭開始，截取一段頭為p，長度為幀長的片段，然后指針p移動，移動的步長就稱為幀移，每移動一次都截取一段，這樣就得到很多幀。加窗：加窗就是用一定的窗函數(shù)w(n)來乘s(n)，從而形成加窗語音信號sw(n)=s(n)?w(n)，常用的窗函數(shù)是矩形窗和漢明窗，用矩形窗其實就是不加窗，窗函數(shù)中有個N，指的是窗口長度（樣本點個數(shù)），對應一幀，通常在8kHz取樣頻率下，N折中選擇為80-160（即10-20ms持續(xù)時間）。端點檢測：從一段語音信號中準確地找出語音信號的起始點和結束點，它的目的是為了使有效的語音信號和無用的噪聲信號得以分離。對于一些公共的語音數(shù)據(jù)集可以不做這步操作，因為這些語音的內容就是有效的語音信號（可以認為研究人員已經對數(shù)據(jù)做過端點檢測）。語音信號的特征（聲音的特征）特征的選取是語音處理的關鍵問題，特征的好壞直接影響到語音處理（比如語音識別）的精度。然而在語音領域中，沒有一個所謂的標準特征集，不同的語音系統(tǒng)選取的特征組合不盡相同。語音的特征一般是由信號處理專家定義的，比較流行的特征是MFCC（梅爾頻率倒譜系數(shù)）。5 語音情感識別算法常用的機器學習分類器：模式識別領域的諸多算法（傳統(tǒng)）都曾用于語音情感識別的研究，比如GMM（高斯混合模型），SVM，KNN，HMM（隱馬爾可夫模型）。用LLDs（low level descriptors）和HSFs（high level statistics functions）這些手工設計特征去訓練。聲譜圖+CRNN：最近很多人用聲譜圖加上CNN，LSTM這些深度學習模型來做。還有手工特征加聲譜圖一起作為特征放進深度學習模型。也有人用DBN，但是不多。3.手工特征+CRNN：也有人用手工特征加CRNN做。————————————————版權聲明：本文為CSDN博主「醒了的追夢人」的原創(chuàng)文章，遵循CC 4.0 BY-SA版權協(xié)議，轉載請附上原文出處鏈接及本聲明。

2021-09-20
檢信智能ALLEMOTION OS推薦免費下載的語音情感數(shù)據(jù)庫

檢信智能ALLEMOTION OS推薦免費下載的語音情感數(shù)據(jù)庫檢信智能ALLEMOTION OS推薦免費下載的語音情感數(shù)據(jù)庫計算機對從傳感器采集來的信號進行分析和處理，得出對方正處在的情感狀態(tài)，這種行為叫作情感識別。目前對于情感識別有兩種方式，一種是檢測生理信號如呼吸，心律和體溫等，另一種是檢測情感行為如面部表情識別，語音情感識別和姿態(tài)識別。語音情感數(shù)據(jù)集是研究語音情感識別的重要基礎，按照情感描述類型可將數(shù)據(jù)集分為離散情感數(shù)據(jù)庫和維度情感數(shù)據(jù)庫，前者以離散的語言標簽（如高興，悲傷等）作為情感標注，后者以連續(xù)的實數(shù)坐標值表示情感。下面介紹一些離散語音情感數(shù)據(jù)集：Belfast英語情感數(shù)據(jù)庫：40位錄音者（20男20女，18-69歲），對五個段落（每個段落7-8個句子）進行演講錄制，演講者按照五種情感傾向進行演講：生氣（anger），悲傷（sadness），高興（happiniess），害怕（fear），中性（neutral）。柏林Emo-DB情感數(shù)據(jù)庫：德國柏林工業(yè)大學錄制，10位演員（5男5女），對10個德語語音進行表演，包含了七種情感：生氣（anger），悲傷（sadness），高興（happiniess），害怕（fear），中性（neutral），厭惡（disgust），無聊（boredom）。共包含800句語料（10 位演員 x10 句話 x7 種情感＋100 條某些語句的二次版本），后經過篩選得到500多條，采樣率為 48kHz （后壓縮至 16kHz），16bit 量化。語料文本的選取遵從語義中性、無情感傾向的原則，且為日?？谡Z化風格，無過多的書面語修飾。語音的錄制在專業(yè)錄音室中完成，要求演員在表演某個特定情感片段前通過回憶自身真實經歷或體驗進行情緒的醞釀，來增強情緒的真實感。FAU AIBO兒童德語情感數(shù)據(jù)庫：2009年在Interspeech會議上舉辦Emotion Challenge評比中指定的語音情感數(shù)據(jù)庫。通過兒童與索尼公司的AIBO機器狗進行自然交互，從而進行情感數(shù)據(jù)的采集。說話人由51名兒童組成，年齡段為10-13歲，其中30個為女性。語料庫包含9.2小時的語音，48401個單詞。采樣頻率為48kHz（后壓縮至 16kHz），16比特量化。該數(shù)據(jù)庫中情感數(shù)據(jù)的自然度高，數(shù)據(jù)量足夠大，是較為流行的一個語音情感數(shù)據(jù)庫。CASIA漢語情感數(shù)據(jù)庫：中科院自動化所錄制，兩男兩女錄制500句不同的文本，通過演講者不同的感情演講得出，最后的語音又人工篩選，得到了大約9600條語句。分為六類情感。ACCorpus系列漢語情感數(shù)據(jù)庫：清華大學和中科院心理研究所合作錄制，相對于CASIA錄制工作者更多，代表性更強。包含如下 5 個相關子庫：ACCorpus＿MM 多模態(tài)、多通道的情感數(shù)據(jù)庫；ACCorpus＿SR 情感語音識別數(shù)據(jù)庫；ACCorpus＿SA 漢語普通話情感分析數(shù)據(jù)庫；ACCorpus＿FV 人臉表情視頻數(shù)據(jù)庫；ACCorpus＿FI 人臉表情圖像數(shù)據(jù)庫。以 ACCorpus＿SR 為例，該子庫是由 50 位錄音人（25 男25女）對 5類情感（中性、高興、生氣、恐懼和悲傷）各自表演得到，16kHz 采樣，16bit 量化。IEMOCAP：南加利福尼亞大學錄制的，10個演員，1男1女演繹一個session，共5個session。錄制了將近12小時的數(shù)據(jù)，有視頻，語音，人臉的變動捕捉和文本。包括即興自發(fā)的和照著稿子念的。每個utterance至少三個人評估。包括9種情感（anger，happiness，excitement，sadness，frustration，fear，surprise，other和neural）的離散標簽，以及三個維度的維度標簽（valence, activation and dominance）?！鏅嗦暶鳎罕疚臑镃SDN博主「醒了的追夢人」的原創(chuàng)文章，遵循CC 4.0 BY-SA版權協(xié)議，轉載請附上原文出處鏈接及本聲明。原文鏈接：https://blog.csdn.net/qq_33472146/article/details/96433766

2021-09-20
檢信智能ALLEMOTION OS 語義文本情感識別原理

檢信智能ALLEMOTION OS 語義文本情感識別原理首先，當然是文本預處理輸入文本，在將輸入文本轉化成向量之前，我們需要將標點符號、括號、問號等刪去，只留下字母、數(shù)字和字符, 同時將大寫字母轉化為小寫，去除停用詞。效果如下圖然后就是將文本轉化為詞向量(即漢字要轉化為計算機能識別的數(shù)字類(矩陣啥的))在將深度學習運用于文本情感分析的過程中，我們需要考慮網(wǎng)絡模型的輸入數(shù)據(jù)的形式。在其他例子中，卷積神經網(wǎng)絡（CNN）使用像素值作為輸入，logistic回歸使用一些可以量化的特征值作為輸入，強化學習模型使用獎勵信號來進行更新。通常的輸入數(shù)據(jù)是需要被標記的標量值。當我們處理文本任務時，可能會想到利用這樣的數(shù)據(jù)管道。但是，這樣的處理方式存在著很多問題。我們不能像點積或者反向傳播那樣在一個字符串上執(zhí)行普通的運算操作。所以在這里我們不能將字符串作為輸入，而是需要將文本轉換成計算機可識別的格式，由于計算機只能識別數(shù)字，因此我們可以將文本中的每一個詞都轉化為一個向量，也稱作詞向量。詞向量是用一個向量的形式表示文本中的一個詞，通過這種轉化方式就能采用機器學習來把任何輸入量化成我們需要的數(shù)值表示，然后就可以充分利用計算機的計算能力，計算得出最終想要的結果，保證了操作的可行性。如圖所示，我們可以將上面的這段文本輸入數(shù)據(jù)轉化成一個 16*D 的輸入矩陣。我們希望創(chuàng)建這種詞向量的方式是可以表示單詞及其在上下文中意義的。例如，我們希望單詞 “l(fā)ove” 和 “adore” 這兩個詞在向量空間中是有一定的相關性的，因為他們的意思相似，而且都在類似的上下文中使用，因此他們的空間相距距離會相對較小。而“l(fā)ove”、“adore”這兩個單詞與單詞“baseball”的意思有很大的不同，詞性也不相同，那么“l(fā)ove”、“adore”這兩個單詞的向量與單詞“baseball”的向量相距距離就會相對較大。單詞的向量表示也被稱之為詞嵌入。特征提?。簽榱说玫竭@些詞嵌入，我們采用一個很著名的模型 “Word2Vec”?！癢ord2Vec”是近幾年很火的算法，它通過神經網(wǎng)絡機器學習算法來訓練N-gram 語言模型，并在訓練過程中求出word所對應的vector的方法。它是將詞表征為實數(shù)值向量的一種高效的算法模型，其利用深度學習的思想，可以通過訓練，把對文本內容的處理簡化為 K 維向量空間中的向量運算，而向量空間上的相似度可以用來表示文本語義上的相似。在這個模型中，每個詞的詞向量是根據(jù)上下文的語境來進行推斷的，如果兩個詞在上下文的語境中可以被互換，那么這就表示這兩個詞的意思相似，詞性相似，那么他們的詞向量中相距距離就非常近。在自然語言中，上下文的語境對分析詞語的意義是非常重要的。簡單來說，Word2Vec這個模型的作用就是從一大堆句子（以 Wikipedia 為例）中為每個獨一無二的單詞進行建模，并且輸出一個唯一的向量，Word2Vec 模型的輸出被稱為一個嵌入矩陣。該嵌入矩陣將包含訓練語料庫中每個不同單詞的向量。傳統(tǒng)上，嵌入矩陣可以包含超過300萬個單詞向量。Word2Vec模型是通過對數(shù)據(jù)集中的每個句子進行訓練，在其上滑動一個固定大小的窗口，并試圖預測窗口的中心詞，給出其他詞。使用損失函數(shù)和優(yōu)化程序，該模型為每個唯一字生成向量。這個訓練過程的細節(jié)可能會變得有點復雜，所以我們現(xiàn)在要跳過細節(jié)，但這里主要的一點是，任何深度學習方法對于NLP任務的輸入可能都會有單詞向量作為輸入。后面特征提取這一塊，應該會將用word2vec提取的方式改為用doc2vec來提取，不過具體修改時間待定，得看我啥時候能將這一操作學會(哈哈噠)。Google 已經幫助我們在大規(guī)模數(shù)據(jù)集上訓練出來了 Word2Vec 模型，它包括 1000 億個不同的詞，在這個模型中，谷歌能創(chuàng)建300萬個詞向量，每個向量維度為 300。在理想情況下，我們將使用這些向量來構建模型，但是因為這個單詞向量矩陣太大了（3.6G），因此在此次研究中我們將使用一個更加易于管理的矩陣，該矩陣由 GloVe 進行訓練得到。矩陣將包含 400000 個詞向量，每個向量的維數(shù)為 50。這里有用到一些.npy文件，是通過glove已經轉好的，存為了npy文件。我們將導入兩個不同的數(shù)據(jù)結構，一個是包含 400000 個單詞的 Python 列表，一個是包含所有單詞向量值的 400000*50 維的嵌入矩陣。結果對比：CNN網(wǎng)絡層數(shù)包括：卷積層，池化層，全連接層。CNN神經網(wǎng)絡模型運用于文本情感分析時效果不如LSTM神經網(wǎng)絡模型效果好，經典的CNN模型在文本情感分析正確率只有71.2%，而對經典進行改進之后，增加了卷積層和池化層，CNN模型的正確率得到了提高，但正確率也是只有77.25%，仍然比不上只用了一層LSTM網(wǎng)絡的正確率高。從結果對比中我們可以知道，CNN不光可以應用于圖像處理領域，也能成功有效地對文本信息進行分析，但LSTM在解決文本情感分析的問題時效果要比CNN好。下面是一些運行結果：訓練數(shù)據(jù)集的結果嗯…，訓練了800多個數(shù)據(jù)，發(fā)現(xiàn)最高的時候準確率在百分之七十幾，但是絕大多數(shù)穩(wěn)定在百分之五十左右，這個準確度還是有點低的，后面加強學習，改進代碼，應該可以將準確度提高。(方法推薦：改改epoch可能會提高準確度，模型收斂+準確率)輸出詞列表的長度，詞向量的維數(shù)維度的個數(shù)這個項目采用的數(shù)據(jù)集是IMDB數(shù)據(jù)集，這個數(shù)據(jù)集是一個關于電影評論的數(shù)據(jù)集，在這個數(shù)據(jù)集上做訓練和測試。這個數(shù)據(jù)集包含 25000 條電影數(shù)據(jù)，其中 12500 條正向數(shù)據(jù)，12500 條負向數(shù)據(jù)。將其中的23000個文本評論作為訓練集，將剩下的2000個文本評論作為測試集。下面為正面評價文本和負面評價文本示例總結：將CNN與LSTM兩種神經網(wǎng)絡模型應用到了文本情感分析的問題當中，使用Word2Vec模型及它的子矩陣GloVe來將文本信息進行預處理，轉換成了詞向量及向量矩陣，使用了IMDB數(shù)據(jù)集來對模型進行訓練，并用TensorFlow進行建模、訓練。版權聲明：本文為CSDN博主「醒了的追夢人」的原創(chuàng)文章，遵循CC 4.0 BY-SA版權協(xié)議，轉載請附上原文出處鏈接及本聲明。

2021-09-20

首頁上一頁 1 2 3 4 5 6 7 8 下一頁尾頁