玩护士睡老师勾搭女下属_欧美变态另类牲交ZOZO_亚洲国产欧美另类久久综合_午夜福利无码a级_亚洲综合一二三_天天干免费视频播放_先锋美女情趣网站在线观看_免费一级毛片全部免费播放瓯_天堂精品mv在线观看99_影音先锋影AV色资源站

檢信智能ALLEMOTION OS 語音情感識別——語音(聲音的預(yù)處理)
日期:2021.09.20   來源:湖南檢信智能
檢信ALLEMOTION

檢信智能ALLEMOTION OS 語音情感識別——語音(聲音的預(yù)處理)

IPAD.jpg

1. 語音信號(聲音是什么)

聲音是由物體振動產(chǎn)生的聲波,是通過介質(zhì)(空氣或固體、液體)傳播并能被人或動物聽覺器官所感知的波動現(xiàn)象,最初發(fā)出振動的物體叫聲源。聲音(語音消息)的基本模擬形式是一種稱為語音信號的聲學(xué)波。語音信號可以通過麥克風(fēng)轉(zhuǎn)化成電信號,轉(zhuǎn)換成語音波形圖,如下圖為消息"should we chase"的波形圖。橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示振幅。文本"should we chase"按照發(fā)音可以表示成音素的形式[SH UH D - W IY - CH EY S],聲波圖中的每一段表示一個音素,在ARBAbet音素集中包含近64 = 2^6個符號。


聲音作為波的一種,頻率(聲源在一秒內(nèi)振動的次數(shù))和振幅是描述波的重要屬性,頻率的大小與我們通常所說的音高對應(yīng),而振幅影響聲音的大小。聲音可以被分解為不同頻率不同強(qiáng)度正弦波的疊加,正弦波是頻率成分最為單一的一種信號,任何復(fù)雜信號都可以看成由許許多多頻率不同、大小不等的正弦波復(fù)合而成。這種變換(或分解)的過程,稱為傅立葉變換,通過這種分解我們可以把時(shí)域圖轉(zhuǎn)為頻域圖。


正弦信號表達(dá)式為y=Asin(ωx+φ)y=Asin?(ωx+φ)。其中A表示振幅。

ω/2πω/2π表示頻率。

對于(空氣中的)聲振動而言,振幅是聲壓與靜止壓強(qiáng)之差的最大值。其中聲壓是聲波在空氣中傳播時(shí)形成壓縮和稀疏交替變化的壓力增值。麥克風(fēng)錄制聲音的原理就是將空氣中的壓力變動波轉(zhuǎn)化成電信號的變動。


而我們平常說的聲音強(qiáng)度(響亮程度)就是由振幅決定的,聲音強(qiáng)度的單位是分貝(dB),計(jì)算公式如下,用實(shí)測聲壓和參考聲壓之比的常用對數(shù)(常用對數(shù)lg以10為底,自然對數(shù)ln以e為底)的20倍來表示。下式中分母是參考值的聲壓,通常為20微帕,人類能聽到的最小聲壓。

分貝表示功率量之比時(shí),等于功率強(qiáng)度之比的常用對數(shù)的10倍。

分貝表示場量之比時(shí),等于場強(qiáng)幅值之比的常用對數(shù)的20倍。

語音鏈(聲音是怎么發(fā)出的)

從語音信號的產(chǎn)生到感知的過程稱為語音鏈,如下圖所示:

2 下面是語音信號產(chǎn)生的四個步驟:

文本:消息以某種形式出現(xiàn)在說話者的大腦中,消息攜帶的信息可認(rèn)為有著不同的表示形式,例如最初可能以英語文本的形式表示。假設(shè)書面語有32個符號,也就是2^5,用5個bit表示一個符號。正常的平均說話速率為15個符號每秒。上圖例子中有15個字母“should we chase”,持續(xù)了0.6秒,信息流的速率為15x5/0.6 = 125 bps。

音素:為了"說出"這條消息,說話者隱式地將文本轉(zhuǎn)換成對應(yīng)口語形式的聲音序列的符號表示,即文本符號轉(zhuǎn)成音素符號,音素符號用來描述口語形式消息的基本聲音及聲音發(fā)生的方式(即語速和語調(diào))。ARBAbet音素集中包含近64 = 2^6個符號,用6個bit表示一個音素,上圖例子中有8個音素,持續(xù)了0.6秒,信息流的速率為8x6/0.6 = 80 bps,考慮描述信號韻律特征的額外信息(比如段長,音高,響度),文本信息編碼成語音信號后,總信息速率需要再加上100bps。

發(fā)音:神經(jīng)肌肉系統(tǒng)以一種與產(chǎn)生口語形式消息及其語調(diào)相一致的方式,移動舌頭,唇,牙齒,頜,軟腭,使這些聲道發(fā)聲器官按規(guī)定的方式移動,進(jìn)而發(fā)出期望的聲音。

刺激共振:聲道系統(tǒng)產(chǎn)生物理生源和恰當(dāng)?shù)臅r(shí)變聲道形狀,產(chǎn)生上圖所示的聲學(xué)波形。

前兩個階段的信息表示是離散的,用一些簡單假設(shè)就可以估計(jì)信息流的速率。

但是后兩個階段信息是連續(xù)的,以關(guān)節(jié)運(yùn)動的形式發(fā)出,想要度量這些連續(xù)信息,需要進(jìn)行恰當(dāng)?shù)牟蓸雍土炕@得等效的數(shù)字信號,才能估計(jì)出數(shù)據(jù)的速率。事實(shí)上,因?yàn)檫B續(xù)的模擬信號容易收到噪聲的影響,抗噪能力弱,通常會轉(zhuǎn)為離散的數(shù)字信號。

在第三階段,進(jìn)行采樣和量化后得到的數(shù)據(jù)率約為2000bps。

在最后一個階段,數(shù)字語音波形的數(shù)據(jù)率可以從64kbps變化到700kbps。該數(shù)據(jù)是通過測量“表示語音信號時(shí)為達(dá)到想要的感知保真度”所需要的采樣率和量化計(jì)算得到的。

比如,“電話質(zhì)量”的語音處理需要保證寬帶為0~4kHz,這意味著采樣率為8000個樣本每秒(根據(jù)香農(nóng)采樣定理,為了不失真地恢復(fù)模擬信號,采樣頻率應(yīng)該不小于模擬信號頻譜中最高頻率的2倍),每個樣本可以量化成8比特,從而得到數(shù)據(jù)率64000bps。這種表示方式很容易聽懂,但對于大多數(shù)傾聽者來說,語音聽起來與說話者發(fā)出的原始語音會有不同。

另一方面,語音波形可以表示成“CD質(zhì)量”,采用44100個樣本每秒的采樣率,每個樣本16比特,總數(shù)據(jù)率為705600bps,此時(shí)復(fù)原的聲學(xué)波聽起來和原始信號幾乎沒有區(qū)別。

現(xiàn)在在音樂app上下載歌曲的時(shí)一般有四種音樂品質(zhì)選擇,標(biāo)準(zhǔn)(128kbps),較高(192kbps),極高(320kbps),無損品質(zhì)。


將消息從文本表示轉(zhuǎn)換成采樣的語音波形時(shí),數(shù)據(jù)率會增大10000倍。這些額外信息的一部分能夠代表說話者的一些特征比如情緒狀態(tài),說話習(xí)慣等,但主要是由簡單采樣和對模擬信號進(jìn)行精細(xì)量化的低效性導(dǎo)致的。因此,處于語音信號固有的低信息速率考慮,很多數(shù)字語音處理的重點(diǎn)是用更低的數(shù)據(jù)率對語音進(jìn)行數(shù)字表示(通常希望數(shù)據(jù)率越低越好,同時(shí)保證重現(xiàn)語音信號的感知質(zhì)量滿足需要的水平)。


3 語音信號中的Analog-Digital Converter,“模-數(shù)”變換(聲音是怎么保存的)

預(yù)濾波(反混疊濾波):語音信號在采樣之前要進(jìn)行預(yù)濾波處理。目的有兩個,一是抑制輸入信號各頻率分量中頻率超過fs/2的所有分量(fs為采樣頻率),以防止混疊干擾;二是抑制50Hz的電源工頻干擾。


1.采樣:原始的語音信號是連續(xù)的模擬信號,需要對語音進(jìn)行采樣,轉(zhuǎn)化為時(shí)間軸上離散的數(shù)據(jù)。

采樣后,模擬信號被等間隔地取樣,這時(shí)信號在時(shí)間上就不再連續(xù)了,但在幅度上還是連續(xù)的。經(jīng)過采樣處理之后,模擬信號變成了離散時(shí)間信號。

采樣頻率是指一秒鐘內(nèi)對聲音信號的采樣次數(shù),采樣頻率越高聲音的還原就越真實(shí)越自然。

在當(dāng)今的主流采集卡上,采樣頻率一般共分為22.05KHz、44.1KHz、48KHz三個等級,22.05KHz只能達(dá)到FM廣播的聲音品質(zhì),44.1KHz則是理論上的CD音質(zhì)界限(人耳一般可以感覺到20-20K Hz的聲音,根據(jù)香農(nóng)采樣定理,采樣頻率應(yīng)該不小于最高頻率的兩倍,所以40KHz是能夠?qū)⑷硕犚姷穆曇暨M(jìn)行很好的還原的一個數(shù)值,于是CD公司把采樣率定為44.1KHz),48KHz則更加精確一些。

對于高于48KHz的采樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價(jià)值。

2.量化:進(jìn)行分級量化,將信號采樣的幅度劃分成幾個區(qū)段,把落在某區(qū)段的采樣到的樣品值歸成一類,并給出相應(yīng)的量化值。根據(jù)量化間隔是否均勻劃分,又分為均勻量化和非均勻量化。

均勻量化的特點(diǎn)為“大信號的信噪比大,小信號的信噪比小”。缺點(diǎn)為“為了保證信噪比要求,編碼位數(shù)必須足夠大,但是這樣導(dǎo)致了信道利用率低,如果減少編碼位數(shù)又不能滿足信噪比的要求”(根據(jù)信噪比公式,編碼位數(shù)越大,信噪比越大,通信質(zhì)量越好)。

通常對語音信號采用非均勻量化,基本方法是對大信號使用大的量化間隔,對小信號使用小的量化間隔。由于小信號時(shí)量化間隔變小,其相應(yīng)的量化噪聲功率也減?。ǜ鶕?jù)量化噪聲功率公式),從而使小信號時(shí)的量化信噪比增大,改善了小信號時(shí)的信噪比。

量化后,信號不僅在時(shí)間上不再連續(xù),在幅度上也不連續(xù)了。經(jīng)過量化處理之后,離散時(shí)間信號變成了數(shù)字信號。


3.編碼:在量化之后信號已經(jīng)變成了數(shù)字信號,需要將數(shù)字信號編碼成二進(jìn)制?!癈D質(zhì)量”的語音采用44100個樣本每秒的采樣率,每個樣本16比特,這個16比特就是編碼的位數(shù)。

采樣,量化,編碼的過程稱為A/D轉(zhuǎn)換,如下圖所示。反過程為D/A轉(zhuǎn)換,因?yàn)锳/D之前進(jìn)行了預(yù)濾波,D/A轉(zhuǎn)換后面還需要加一個平滑濾波器。A/D轉(zhuǎn)換,D/A轉(zhuǎn)換,濾波這些功能都可以用一塊芯片來完成,在市面上能買到各種這樣的芯片。


4 語音信號的預(yù)處理(聲音的預(yù)處理)

語音信號的預(yù)處理一般包括預(yù)加重,分幀,加窗,端點(diǎn)檢測。

預(yù)加重:求語音信號頻譜(頻譜是指時(shí)域信號在頻域下的表示方式,關(guān)于頻域和時(shí)域的理解如下圖所示),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重(Pre-emphasis)處理。預(yù)加重的目的是提高高頻部分,使信號的頻譜變得平坦,以便于頻譜分析或者聲道參數(shù)分析。預(yù)加重可在語音信號數(shù)字化時(shí)在反混疊濾波器之前進(jìn)行,但一般是在語音信號數(shù)字化之后。

短時(shí)分析:語音信號從整體來看是隨時(shí)間變化的,是一個非平穩(wěn)過程,不能用處理平穩(wěn)信號的數(shù)字信號處理技術(shù)對其進(jìn)行分析處理。但是,由于不同的語音是由人的口腔肌肉運(yùn)動構(gòu)成聲道某種形狀而產(chǎn)生的響應(yīng),這種運(yùn)動對于語音頻率來說是非常緩慢的,所以從另一方面看,雖然語音信號具有時(shí)變特性,但是在一個短時(shí)間范圍內(nèi)(一般認(rèn)為在10-30ms)其特性基本保持相對穩(wěn)定,即語音具有短時(shí)平穩(wěn)性。所以任何語音信號的分析和處理必須建立在“短時(shí)”的基礎(chǔ)上,即進(jìn)行“短時(shí)分析”。

分幀:為了進(jìn)行短時(shí)分析,將語音信號分為一段一段,其中每一段稱為一幀,一般取10-30ms,為了使幀與幀之間平滑過渡,保持連續(xù)性,使用交疊分段的方法,可以想成一個指針p從頭開始,截取一段頭為p,長度為幀長的片段,然后指針p移動,移動的步長就稱為幀移,每移動一次都截取一段,這樣就得到很多幀。

加窗:加窗就是用一定的窗函數(shù)w(n)來乘s(n),從而形成加窗語音信號sw(n)=s(n)?w(n),常用的窗函數(shù)是矩形窗和漢明窗,用矩形窗其實(shí)就是不加窗,窗函數(shù)中有個N,指的是窗口長度(樣本點(diǎn)個數(shù)),對應(yīng)一幀,通常在8kHz取樣頻率下,N折中選擇為80-160(即10-20ms持續(xù)時(shí)間)。

端點(diǎn)檢測:從一段語音信號中準(zhǔn)確地找出語音信號的起始點(diǎn)和結(jié)束點(diǎn),它的目的是為了使有效的語音信號和無用的噪聲信號得以分離。對于一些公共的語音數(shù)據(jù)集可以不做這步操作,因?yàn)檫@些語音的內(nèi)容就是有效的語音信號(可以認(rèn)為研究人員已經(jīng)對數(shù)據(jù)做過端點(diǎn)檢測)。

語音信號的特征(聲音的特征)

特征的選取是語音處理的關(guān)鍵問題,特征的好壞直接影響到語音處理(比如語音識別)的精度。然而在語音領(lǐng)域中,沒有一個所謂的標(biāo)準(zhǔn)特征集,不同的語音系統(tǒng)選取的特征組合不盡相同。


語音的特征一般是由信號處理專家定義的,比較流行的特征是MFCC(梅爾頻率倒譜系數(shù))。

5 語音情感識別算法

常用的機(jī)器學(xué)習(xí)分類器:模式識別領(lǐng)域的諸多算法(傳統(tǒng))都曾用于語音情感識別的研究,比如GMM(高斯混合模型),SVM,KNN,HMM(隱馬爾可夫模型)。用LLDs(low level descriptors)和HSFs(high level statistics functions)這些手工設(shè)計(jì)特征去訓(xùn)練。

聲譜圖+CRNN:最近很多人用聲譜圖加上CNN,LSTM這些深度學(xué)習(xí)模型來做。還有手工特征加聲譜圖一起作為特征放進(jìn)深度學(xué)習(xí)模型。也有人用DBN,但是不多。

3.手工特征+CRNN:也有人用手工特征加CRNN做。

————————————————

版權(quán)聲明:本文為CSDN博主「醒了的追夢人」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。



相關(guān)推薦
  • 檢信智能致一年級家長,孩子需要情緒啟蒙教育
    檢信智能致一年級家長,孩子必須了解情緒啟蒙教育 小學(xué)一年級是孩子情感認(rèn)知發(fā)展的重要階段,他們必須懂得以下心理情緒內(nèi)容:一、認(rèn)識基本情緒1. 快樂:當(dāng)孩子做游戲、得到表揚(yáng)或與朋友玩耍時(shí),他們會感到快樂。要教會他們識別并分享這種美好的感受。2. 悲傷:失去心愛的玩具或與朋友發(fā)生爭執(zhí)時(shí),孩子可能會感到難過。要教會他們用語言來表達(dá)這種情緒,并學(xué)會安慰自己。3. 生氣:當(dāng)需求得不到滿足或被誤解時(shí),孩子可能會生氣。要教育他們用合適的方式表達(dá)憤怒,如告訴他們生氣時(shí)可以暫時(shí)離開現(xiàn)場冷靜一下。二、理解情緒的表達(dá)1. 面部表情:教會孩子識別不同的面部表情,如微笑、哭泣、生氣等,幫助他們理解情緒可以通過面部表情來表達(dá)。2. 語言表達(dá):鼓勵孩子用語言來描述自己的感受,這有助于他們更好地理解和管理自己的情緒。三、情緒管理技巧1. 深呼吸與放松:當(dāng)孩子感到緊張或不安時(shí),教他們進(jìn)行深呼吸和放松技巧,幫助他們平靜下來。2. 分享與傾聽:鼓勵孩子與家長、老師或朋友分享自己的情緒,同時(shí)也要學(xué)會傾聽他人的感受。3. 尋求幫助:教育孩子在遇到難以處理的問題時(shí),要勇敢地向家長或老師尋求幫助。四、培養(yǎng)積極情緒1. 鼓勵與表揚(yáng):家長和老師要經(jīng)常給予孩子鼓勵和表揚(yáng),讓他們體驗(yàn)到成功的喜悅和自信。2. 培養(yǎng)興趣愛好:鼓勵孩子參加各種活動,培養(yǎng)他們的興趣愛好,讓他們在快樂中成長。3. 學(xué)會感恩:教育孩子珍惜身邊的人和事,學(xué)會感恩,從而培養(yǎng)積極向上的心態(tài)。通過以上內(nèi)容的學(xué)習(xí),小學(xué)一年級的孩子將能夠更好地理解和管理自己的情緒,提高情感認(rèn)知能力,為未來的成長打下堅(jiān)實(shí)的基礎(chǔ)。
    2024-09-09
  • 檢信智能榮譽(yù)刊文-入庫國人榮譽(yù)獎庫
    檢信智能榮譽(yù)刊文-入庫國人榮譽(yù)獎庫 2024年5月29日,檢信智能榮獲第二十三屆中國科學(xué)家論壇科技創(chuàng)新優(yōu)秀(發(fā)明)成果榮譽(yù)稱號的榮譽(yù)刊文,入庫國人榮譽(yù)獎庫。 在2024年5月25日-26日于北京會議中心舉辦的第二十三屆中國科學(xué)家論壇上,備受矚目的檢信智能非接觸式心理參數(shù)智能分析與測評系統(tǒng)發(fā)明專利憑借其心理情緒數(shù)字化的發(fā)明創(chuàng)新成果,榮獲了第二十三屆中國科學(xué)家論壇科技創(chuàng)新優(yōu)秀(發(fā)明)成果稱號。這一榮譽(yù)是對檢信智能八年來一直堅(jiān)持在心理情緒識別領(lǐng)域內(nèi)的貢獻(xiàn)以及檢信智能在數(shù)字心理健康領(lǐng)域卓越成就的一種肯定。 從2016年成立起,檢信智能作為我國心理情緒數(shù)字化領(lǐng)域的國家高新技術(shù)企業(yè),檢信智能創(chuàng)始人李劍峰在中國人民公安大學(xué)武伯欣教授心測理論的指導(dǎo)下,一直堅(jiān)持不懈地從事心理情緒數(shù)字化的研究開發(fā)工作,采用LSTM時(shí)序神經(jīng)網(wǎng)絡(luò)模型,在2017實(shí)現(xiàn)了我國自主知識產(chǎn)權(quán)的首套語音心理情緒分析系統(tǒng)的上市,并在山東諸城市檢察院的首次應(yīng)用。檢信智能在2018年到2019年開發(fā)人臉表情識別、面幀情緒識別、以及眼動軌跡識別等,多維度心理情緒識別不斷地取得卓越的成績。 檢信智能在本次第二十三屆中國科學(xué)家論壇收獲不僅是獲獎的一種榮譽(yù),由于心理健康監(jiān)測涉及到不同行業(yè)不同領(lǐng)域的各個企事業(yè)單位、教育、部隊(duì)等,因此參會3000多家企業(yè)通過對檢信智能AI心理情緒技術(shù)的了解,很多企業(yè)紛紛表達(dá)了對該技術(shù)在不同行業(yè)應(yīng)用的需求。例如產(chǎn)品銷售代理、系統(tǒng)集成,開放API接口等合作模式。未來檢信會再接再勵,繼續(xù)研發(fā),為提供全方位多層次的有效解決方 案,為國家打造全民健康、自信社會的發(fā)展目標(biāo)而不斷努力前行。
    2024-08-27
  • 檢信AI心理健康與職業(yè)能力測評系統(tǒng)V3.0——獲得計(jì)算機(jī)軟件著作權(quán)登記證書
    檢信AI心理健康與職業(yè)能力測評系統(tǒng)V3.0--獲得計(jì)算機(jī)軟件著作權(quán)登記證書 2024.7月,我司的檢信AI心理健康與職業(yè)能力測評系統(tǒng)V3.0獲得計(jì)算機(jī)軟件著作權(quán)登記證書。 湖南檢信智能科技有限公司,成立于2016年,是一家專注于心理情緒情感算法及應(yīng)用開發(fā)的人工智能型企業(yè),核心開發(fā)團(tuán)隊(duì)具有清華大學(xué)、國防科技大學(xué)教育背景,運(yùn)用“語 音情緒識別,人臉表情識別,面篩情緒識別,眼動情緒識別”等核心自主知識產(chǎn)權(quán)技術(shù),結(jié)合湘雅醫(yī)學(xué)院心理專家團(tuán)隊(duì)提供心理情緒分類模型為基礎(chǔ),首創(chuàng)檢信 Allemotion 心理情緒監(jiān)測平臺,應(yīng)用開發(fā)的主導(dǎo)產(chǎn)品有多維度心理情緒測評系統(tǒng) 崗前安全評測系統(tǒng)和心理意圖分析系統(tǒng)。 檢信智能截止目前已累計(jì)申請20個發(fā)明專利,其中有效發(fā)明專利7個,有效實(shí)用新型1個,有效外觀設(shè)計(jì)1個,軟件著作權(quán)6個,當(dāng)前在天眼查及企查查排名等級卓越,科創(chuàng)分97分,在軟件和信息技術(shù)服務(wù)業(yè)超過99%的同行企業(yè),這是多方對我司的肯定,未來我們將繼續(xù)以技術(shù)創(chuàng)新升級為核心,從優(yōu)化產(chǎn)品組合,健全客戶服務(wù)體系,提升公司運(yùn)行效率,加大與友公司合作等方面著手,踔厲奮發(fā)、篤行不怠,積極推進(jìn)接下來一年的工作,爭取邁向新的臺階,取得新的成就。
    2024-08-08