玩护士睡老师勾搭女下属_欧美变态另类牲交ZOZO_亚洲国产欧美另类久久综合_午夜福利无码a级_亚洲综合一二三_天天干免费视频播放_先锋美女情趣网站在线观看_免费一级毛片全部免费播放瓯_天堂精品mv在线观看99_影音先锋影AV色资源站

檢信專注心理
用技術(shù)創(chuàng)新 做行業(yè)先驅(qū)
檢信ALLEMOTION
  • 檢信智能 Allemotion OS 介紹 語音識別技術(shù)的發(fā)展現(xiàn)狀
    讓機(jī)器聽懂人聲,這是人們長久以來的夢想。語音識別是一門交叉學(xué)科,涉及多學(xué)科研究領(lǐng)域。不同領(lǐng)域的研究成果為語音識別的發(fā)展做出了貢獻(xiàn)。語音識別技術(shù)是一種高科技,它可以讓機(jī)器通過識別和理解的過程將語音信號轉(zhuǎn)換成相應(yīng)的文本或命令。計算機(jī)語音識別過程與人類語音識別過程基本相同。當(dāng)前主流的語音識別技術(shù)是基于統(tǒng)計模式識別的基本理論。一個完整的語音識別系統(tǒng)大致可以分為三個部分:(1)語音特征提?。耗康氖菑恼Z音波形中提取隨時間變化的語音特征序列。(2)聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型是識別系統(tǒng)的底層模型,也是語音識別系統(tǒng)中關(guān)鍵的部分。聲學(xué)模型通常是從獲得的語音特征中訓(xùn)練生成的,目的是為每個發(fā)音建立一個發(fā)音模板。在識別過程中,將未知語音特征與聲學(xué)模型(模式)進(jìn)行匹配和比較,計算未知語音的特征向量序列與每個發(fā)音模板的距離。聲學(xué)模型的設(shè)計與語言發(fā)音的特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小對語音訓(xùn)練數(shù)據(jù)的大小、語音識別系統(tǒng)的識別率和靈活性有很大影響。(3)語義理解:計算機(jī)對語音識別結(jié)果的語法和語義進(jìn)行分析。理解語言的含義,以便做出相應(yīng)的反應(yīng)。它通常是通過語言模型來實(shí)現(xiàn)的。語音識別技術(shù)的應(yīng)用:語音識別過程實(shí)際上就是一個識別過程。就像人們在聽語音時,不會將語音與語言的語法結(jié)構(gòu)和語義結(jié)構(gòu)分開,因?yàn)楫?dāng)語音的發(fā)音模糊時,人們可以利用這些知識來指導(dǎo)理解語言的過程。對于機(jī)器來說,語音識別系統(tǒng)也需要使用這些知識,但鑒于語音信號的可變性、動態(tài)性和瞬態(tài)性,語音識別技術(shù)與人腦仍有一定差距。因此,在語音識別技術(shù)的選擇、應(yīng)用模式和系統(tǒng)開發(fā)等方面都需要專業(yè)的設(shè)計和調(diào)試,以達(dá)到良好的應(yīng)用效果。
    2021-09-27
  • 檢信智能 Allemotion OS 對語音識別的簡單介紹
    檢信智能 Allemotion OS 對語音識別的簡單介紹 語言作為人類交流的基本方式,在幾千年的歷史長河中不斷傳承。近年來,隨著語音識別技術(shù)的不斷成熟,它在我們的生活中得到了廣泛的應(yīng)用,成為通過自然語言進(jìn)行人機(jī)交互的重要方式之一。語音識別技術(shù)如何讓機(jī)器“理解”人類語言?隨著計算機(jī)技術(shù)的快速發(fā)展,人們對機(jī)器的依賴已經(jīng)達(dá)到了一個非常高的水平。語音識別技術(shù)使人和機(jī)器通過自然語言進(jìn)行交互成為可能。通過語音識別控制房間照明、空調(diào)溫度和電視相關(guān)操作是很常見的。根據(jù)識別對象的不同,語音識別任務(wù)大致可以分為三類,即孤立詞識別、關(guān)鍵詞識別(或關(guān)鍵詞檢測)和連續(xù)語音識別。其中,孤立詞識別的任務(wù)是識別先前已知的孤立詞,如“開放”和“封閉”。連續(xù)語音識別的任務(wù)是識別任何連續(xù)的語音,如句子或段落。連續(xù)語音流中的關(guān)鍵詞檢測針對的是連續(xù)語音,但它并不識別所有的文本,只檢測一些已知關(guān)鍵詞出現(xiàn)的位置。根據(jù)目標(biāo)說話人,語音識別技術(shù)可以分為特定人語音識別和非特定人語音識別。前者只能識別一個或幾個人的聲音,而后者可以被任何人使用。顯然,獨(dú)立于人的語音識別系統(tǒng)更符合實(shí)際需求,但比識別特定的人要困難得多。此外,根據(jù)語音設(shè)備和渠道,可分為桌面(PC)語音識別、電話語音識別和嵌入式設(shè)備(手機(jī)、PDA等)語音識別。不同的采集通道會扭曲人類發(fā)音的聲學(xué)特征,因此我們需要構(gòu)建自己的識別系統(tǒng)。語音識別應(yīng)用廣泛。常見的應(yīng)用系統(tǒng)包括:語音輸入系統(tǒng),比鍵盤輸入更符合人們的日常習(xí)慣,也更自然;語音控制系統(tǒng),即使用語音識別控制設(shè)備比手動控制更快更方便,可應(yīng)用于工業(yè)控制、語音撥號系統(tǒng)、智能家電、聲控智能玩具等諸多領(lǐng)域。
    2021-09-24
  • Tensorboard可視化:基于LeNet5進(jìn)行面部表情分類
    Tensorboard可視化:基于LeNet5進(jìn)行面部表情分類 面部表情分類面部表情是面部肌肉的一個或多個動作或狀態(tài)的結(jié)果。這些運(yùn)動表達(dá)了個體對觀察者的情緒狀態(tài)。面部表情是非語言交際的一種形式。它是表達(dá)人類之間的社會信息的主要手段,不過也發(fā)生在大多數(shù)其他哺乳動物和其他一些動物物種中。人類的面部表情至少有21種,除了常見的高興、吃驚、悲傷、憤怒、厭惡和恐懼6種,還有驚喜(高興+吃驚)、悲憤(悲傷+憤怒)等15種可被區(qū)分的復(fù)合表情。面部表情識別技術(shù)主要的應(yīng)用領(lǐng)域包括人機(jī)交互、智能控制、安全、醫(yī)療、通信等領(lǐng)域。網(wǎng)絡(luò)架構(gòu)LeNet-5出自論文Gradient-Based Learning Applied to Document Recognition,是一種用于手寫體字符識別的非常高效的卷積神經(jīng)網(wǎng)絡(luò)。LeNet5的網(wǎng)絡(luò)架構(gòu)如下:但是因?yàn)槲覀円龅氖敲娌勘砬榉诸?,而且CK+數(shù)據(jù)集樣本大小是48*48,因此需要對LeNet5網(wǎng)絡(luò)進(jìn)行微調(diào)。網(wǎng)絡(luò)架構(gòu)如下: 網(wǎng)絡(luò)結(jié)構(gòu)如下:計算圖如下:代碼實(shí)現(xiàn)預(yù)處理數(shù)據(jù)集加載,并進(jìn)行預(yù)處理,同時將測試集的前225張樣本拼接成15張*15張的大圖片,用于Tensorboard可視化。%matplotlib inlineimport matplotlib.pyplot as pltimport osimport cv2import numpy as npfrom tensorflow import name_scope as namespacefrom tensorflow.contrib.tensorboard.plugins import projectorNUM_PIC_SHOW=225base_filedir='D:/CV/datasets/facial_exp/CK+'dict_str2int={'anger':0,'contempt':1,'disgust':2,'fear':3,'happy':4,'sadness':5,'surprise':6}labels=[]data=[]#讀取圖片并將其保存至datafor expdir in os.listdir(base_filedir): base_expdir=os.path.join(base_filedir,expdir) for name in os.listdir(base_expdir): labels.append(dict_str2int[expdir]) path=os.path.join(base_expdir,name) path=path.replace('\\','/') #將\替換為/ img = cv2.imread(path,0) data.append(img)data=np.array(data)labels=np.array(labels)#將data打亂permutation = np.random.permutation(data.shape[0])data = data[permutation,:,:]labels = labels[permutation]#取前225個圖片拼成一張大圖片,用于tensorboard可視化img_set=data[:NUM_PIC_SHOW]#前225的數(shù)據(jù)用于顯示label_set=labels[:NUM_PIC_SHOW]big_pic=Noneindex=0for row in range(15): row_vector=img_set[index] index+=1 for col in range(1,15): img=img_set[index] row_vector=np.hstack([row_vector,img]) index+=1 if(row==0): big_pic=row_vector else: big_pic=np.vstack([big_pic,row_vector])plt.imshow(big_pic, cmap='gray')plt.show()#寫入大圖片cv2.imwrite(D:/Jupyter/TensorflowLearning/facial_expression_cnn_projector/data/faces.png,big_pic)#轉(zhuǎn)換數(shù)據(jù)格式和形狀data=data.reshape(-1,48*48).astype('float32')/255.0labels=labels.astype('float32')#0.3的比例測試scale=0.3test_data=data[:int(scale*data.shape[0])]test_labels=labels[:int(scale*data.shape[0])]train_data=data[int(scale*data.shape[0]):]train_labels=labels[int(scale*data.shape[0]):]print(train_data.shape)print(train_labels.shape)print(test_data.shape)print(test_labels.shape)#將標(biāo)簽one-hottrain_labels_onehot=np.zeros((train_labels.shape[0],7))test_labels_onehot=np.zeros((test_labels.shape[0],7))for i,label in enumerate(train_labels): train_labels_onehot[i,int(label)]=1for i,label in enumerate(test_labels): test_labels_onehot[i,int(label)]=1print(train_labels_onehot.shape)print(test_labels_onehot.shape)2.定義前向網(wǎng)絡(luò)import tensorflow as tfIMAGE_SIZE=48 #圖片大小NUM_CHANNELS=1 #圖片通道CONV1_SIZE=5CONV1_KERNEL_NUM=32CONV2_SIZE=5CONV2_KERNEL_NUM=64FC_SIZE=512 #隱層大小OUTPUT_NODE=7 #輸出大小#參數(shù)概要,用于tensorboard實(shí)時查看訓(xùn)練過程def variable_summaries(var): with namespace('summaries'): mean=tf.reduce_mean(var) tf.summary.scalar('mean',mean) #平均值 with namespace('stddev'): stddev=tf.sqrt(tf.reduce_mean(tf.square(var-mean))) tf.summary.scalar('stddev',stddev) #標(biāo)準(zhǔn)差 tf.summary.scalar('max',tf.reduce_max(var))#最大值 tf.summary.scalar('min',tf.reduce_min(var))#最小值 tf.summary.histogram('histogram',var)#直方圖#獲取權(quán)重def get_weight(shape,regularizer,name=None): w=tf.Variable(tf.truncated_normal(shape,stddev=0.1),name=name) #variable_summaries(w) if(regularizer!=None): tf.add_to_collection('losses',tf.contrib.layers.l2_regularizer(regularizer)(w)) return w#獲取偏置def get_bias(shape,name=None): b=tf.Variable(tf.zeros(shape),name=name) #variable_summaries(b) return b #定義前向網(wǎng)絡(luò)def forward(x,train,regularizer): with tf.name_scope('layer'): #把輸入reshape with namespace('reshape_input'): x_reshaped=tf.reshape(x,[-1,IMAGE_SIZE,IMAGE_SIZE,NUM_CHANNELS]) with tf.name_scope('conv1'): #定義兩個卷積層 conv1_w=get_weight([CONV1_SIZE,CONV1_SIZE,NUM_CHANNELS,CONV1_KERNEL_NUM],regularizer=regularizer,name='conv1_w') conv1_b=get_bias([CONV1_KERNEL_NUM],name='conv1_b') conv1=tf.nn.conv2d(x_reshaped,conv1_w,strides=[1,1,1,1],padding='SAME') relu1=tf.nn.relu(tf.nn.bias_add(conv1,conv1_b)) pool1=tf.nn.max_pool(relu1,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME') with tf.name_scope('conv2'): conv2_w=get_weight([CONV2_SIZE,CONV2_SIZE,CONV1_KERNEL_NUM,CONV2_KERNEL_NUM],regularizer=regularizer,name='conv2_w') conv2_b=get_bias([CONV2_KERNEL_NUM],name='conv2_b') conv2=tf.nn.conv2d(pool1,conv2_w,strides=[1,1,1,1],padding='SAME') relu2=tf.nn.relu(tf.nn.bias_add(conv2,conv2_b)) #對卷機(jī)后的輸出添加偏置,并通過relu完成非線性激活 pool2=tf.nn.max_pool(relu2,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME') with tf.name_scope('flatten'): #定義reshape層 pool_shape=pool2.get_shape().as_list() #獲得張量的維度并轉(zhuǎn)換為列表 nodes=pool_shape[1]*pool_shape[2]*pool_shape[3] #[0]為batch值,[1][2][3]分別為長寬和深度 #print(type(pool2)) reshaped=tf.reshape(pool2,[-1,nodes]) with tf.name_scope('fc1'): #定義兩層全連接層 fc1_w=get_weight([nodes,FC_SIZE],regularizer,name='fc1_w') fc1_b=get_bias([FC_SIZE],name='fc1_b') fc1=tf.nn.relu(tf.matmul(reshaped,fc1_w)+fc1_b) if(train): fc1=tf.nn.dropout(fc1,0.5) with tf.name_scope('fc2'): fc2_w=get_weight([FC_SIZE,OUTPUT_NODE],regularizer,name='fc2_w') fc2_b=get_bias([OUTPUT_NODE],name='fc2_b') y=tf.matmul(fc1,fc2_w)+fc2_b return y3.定義反向傳播 ,可視化設(shè)置,并進(jìn)行訓(xùn)練,BATCH_SIZE=100 #每次樣本數(shù)LEARNING_RATE_BASE=0.005 #基本學(xué)習(xí)率LEARNING_RATE_DECAY=0.99 #學(xué)習(xí)率衰減率REGULARIZER=0.0001 #正則化系數(shù)STEPS=2500 #訓(xùn)練次數(shù)MOVING_AVERAGE_DECAY=0.99 #滑動平均衰減系數(shù)SAVE_PATH='.\\facial_expression_cnn_projector\\' #參數(shù)保存路徑data_len=train_data.shape[0]#將拼接為big_pic的測試樣本保存至標(biāo)量,用于訓(xùn)練過程可視化pic_stack=tf.stack(test_data[:NUM_PIC_SHOW]) #stack拼接圖片張量embedding=tf.Variable(pic_stack,trainable=False,name='embedding')if(tf.gfile.Exists(os.path.join(SAVE_PATH,'projector'))==False): tf.gfile.MkDir(os.path.join(SAVE_PATH,'projector'))#創(chuàng)建metadata文件,存放可視化圖片的labelif(tf.gfile.Exists(os.path.join(SAVE_PATH,'projector','metadata.tsv'))==True): tf.gfile.DeleteRecursively(os.path.join(SAVE_PATH,'projector')) tf.gfile.MkDir(os.path.join(SAVE_PATH,'projector'))#將可視化圖片的標(biāo)簽寫入with open(os.path.join(SAVE_PATH,'projector','metadata.tsv'),'w') as f: for i in range(NUM_PIC_SHOW): f.write(str(label_set[i])+'\n')with tf.Session() as sess: with tf.name_scope('input'): #x=tf.placeholder(tf.float32,[BATCH_SIZE,IMAGE_SIZE,IMAGE_SIZE,NUM_CHANNELS],name='x_input') x=tf.placeholder(tf.float32,[None,IMAGE_SIZE*IMAGE_SIZE*NUM_CHANNELS],name='x_input') y_=tf.placeholder(tf.float32,[None,OUTPUT_NODE],name='y_input') #reshape可視化圖片 with namespace('input_reshape'): image_shaped_input=tf.reshape(x,[-1,IMAGE_SIZE,IMAGE_SIZE,1]) #把輸入reshape tf.summary.image('input',image_shaped_input,7) #添加到tensorboard中顯示 y=forward(x,True,REGULARIZER) global_step=tf.Variable(0,trainable=False) with namespace('loss'): #softmax并計算交叉熵 ce=tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y,labels=tf.argmax(y_,1)) cem=tf.reduce_mean(ce) #求每個樣本的交叉熵 loss=cem+tf.add_n(tf.get_collection('losses')) tf.summary.scalar('loss',loss) #loss只有一個值,就直接輸出 learning_rate=tf.train.exponential_decay( LEARNING_RATE_BASE, global_step, data_len/BATCH_SIZE, LEARNING_RATE_DECAY, staircase=True ) with namespace('train'): train_step=tf.train.GradientDescentOptimizer(learning_rate).minimize(loss,global_step=global_step) ema=tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,global_step) ema_op=ema.apply(tf.trainable_variables()) with namespace('accuracy'): correct_prediction=tf.equal(tf.argmax(y,1),tf.argmax(y_,1)) accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32)) tf.summary.scalar('accuracy',accuracy) with tf.control_dependencies([train_step,ema_op]): train_op=tf.no_op(name='train') init_op=tf.global_variables_initializer() sess.run(init_op) #合并所有的summary merged=tf.summary.merge_all() #寫入圖結(jié)構(gòu) writer=tf.summary.FileWriter(os.path.join(SAVE_PATH,'projector'),sess.graph) saver=tf.train.Saver() #保存網(wǎng)絡(luò)的模型 #配置可視化 config=projector.ProjectorConfig() #tensorboard配置對象 embed=config.embeddings.add() #增加一項(xiàng) embed.tensor_name=embedding.name #指定可視化的變量 embed.metadata_path='D:/Jupyter/TensorflowLearning/facial_expression_cnn_projector/projector/metadata.tsv' #路徑 embed.sprite.image_path='D:/Jupyter/TensorflowLearning/facial_expression_cnn_projector/data/faces.png' embed.sprite.single_image_dim.extend([IMAGE_SIZE,IMAGE_SIZE])#可視化圖片大小 projector.visualize_embeddings(writer,config) #斷點(diǎn)續(xù)訓(xùn) #ckpt=tf.train.get_checkpoint_state(MODEL_SAVE_PATH) #if(ckpt and ckpt.model_checkpoint_path): # saver.restore(sess,ckpt.model_checkpoint_path) for i in range(STEPS): run_option=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) run_metadata=tf.RunMetadata() start=(i*BATCH_SIZE)%(data_len-BATCH_SIZE) end=start+BATCH_SIZE summary,_,loss_value,step=sess.run([merged,train_op,loss,global_step], feed_dict={x:train_data[start:end],y_:train_labels_onehot[start:end]}, options=run_option, run_metadata=run_metadata) writer.add_run_metadata(run_metadata,'step%03d'%i) writer.add_summary(summary,i)#寫summary和i到文件 if(i%100==0): acc=sess.run(accuracy,feed_dict={x:test_data,y_:test_labels_onehot}) print('%d %g'%(step,loss_value)) print('acc:%f'%(acc)) saver.save(sess,os.path.join(SAVE_PATH,'projector','model'),global_step=global_step) writer.close()可視化訓(xùn)練過程執(zhí)行上面的代碼,打開tensorboard,可以看到訓(xùn)練精度和交叉熵?fù)p失如下:由于只有六百多的訓(xùn)練樣本,故得到曲線抖動很大,訓(xùn)練精度大概在百分之八九十多浮動,測試精度在百分之七八十浮動,可見精度不高。下面使用Tensorboard將訓(xùn)練過程可視化(圖片是用Power Point錄頻然后用迅雷應(yīng)用截取gif得到的): ————————————————版權(quán)聲明:本文為CSDN博主「陳建驅(qū)」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
    2021-09-20
  • 檢信智能Allemotion OS 讓你讀懂什么是圖像識別
    檢信智能Allemotion OS 讓你讀懂什么是圖像識別圖像識別是指利用計算機(jī)對圖像進(jìn)行處理、分析和理解,以各種模式識別目標(biāo)和物體。它是深度學(xué)習(xí)算法的實(shí)際應(yīng)用?,F(xiàn)階段,圖像識別技術(shù)一般分為人臉識別和產(chǎn)品識別。人臉識別主要應(yīng)用于安檢、身份驗(yàn)證和移動支付;產(chǎn)品圖像識別主要應(yīng)用于商品流通領(lǐng)域,尤其是無人貨架、智能零售柜等無人零售領(lǐng)域。傳統(tǒng)的圖像識別過程分為四個步驟:圖像采集→圖像預(yù)處理→特征提取→圖像識別。另外,在地理學(xué)上,圖像識別是指對遙感圖像進(jìn)行分類的技術(shù)。圖像識別可以基于圖像的主要特征。每個圖像都有它的特點(diǎn),比如字母A有一個尖點(diǎn),P有一個圓,Y的中心有一個銳角。對圖像識別過程中眼球運(yùn)動的研究表明,視線總是集中在圖像的主要特征上。而且,眼睛的掃描路徑總是從一個特征到另一個特征。可見,在圖像識別過程中,感知機(jī)制需要排除輸入的冗余信息,提取關(guān)鍵信息。同時,大腦中有負(fù)責(zé)整合信息的機(jī)制,可以將分階段獲得的信息組織成完整的感知圖像。在人體圖像識別系統(tǒng)中,復(fù)雜圖像的識別往往是通過不同層次的信息處理來實(shí)現(xiàn)的。對于一個熟悉的人物,因?yàn)槟阏莆樟怂闹饕卣?,你就會把它認(rèn)作一個單元,不再關(guān)注它的細(xì)節(jié)。這種由孤立的單元材料組成的整體單元稱為塊,每個塊同時被感知。在書面材料的識別中,人們不僅可以將漢字的筆畫組合成一個塊,還可以將經(jīng)常一起出現(xiàn)的字符或單詞組合成塊單元進(jìn)行識別。在計算機(jī)圖像識別系統(tǒng)中,圖像內(nèi)容通常由圖像特征來描述。事實(shí)上,基于計算機(jī)視覺的圖像檢索也可以分為類似于文本搜索引擎的三個步驟:提取特征、建立索引和查詢。
    2021-09-08
  • 檢信智能Allemotion OS  10分鐘讓你 了解語音識別
    檢信智能Allemotion OS 10分鐘讓你了解語音識別語言作為人類基本的交流方式,在幾千年的歷史中不斷地傳承下來。近年來,語音識別技術(shù)的不斷成熟,在我們的生活中得到了廣泛的應(yīng)用,成為人機(jī)通過自然語言進(jìn)行交互的重要方式之一。語音識別技術(shù)如何讓機(jī)器“理解”人類語言?隨著計算機(jī)技術(shù)的飛速發(fā)展,人們對機(jī)器的依賴程度已經(jīng)達(dá)到了非常高的水平。語音識別技術(shù)使人與機(jī)器通過自然語言進(jìn)行交互成為可能。常見的情況是通過語音識別控制房間照明、空調(diào)溫度和電視相關(guān)操作。根據(jù)識別對象的不同,語音識別任務(wù)大致可以分為三類,即孤立詞識別、關(guān)鍵詞識別(或關(guān)鍵詞檢測)和連續(xù)語音識別。其中,孤立詞識別的任務(wù)是識別預(yù)先已知的孤立詞,如“開啟”、“關(guān)閉”等;連續(xù)語音識別的任務(wù)是識別任何連續(xù)的語音,例如句子或段落;連續(xù)語音流中的關(guān)鍵詞檢測是針對連續(xù)語音的,但它并不識別所有的文本,而只是檢測一些已知關(guān)鍵詞出現(xiàn)的位置。根據(jù)目標(biāo)說話人,語音識別技術(shù)可分為特定人語音識別和非特定人語音識別。前者只能識別一個人或幾個人的聲音,而后者任何人都可以使用。顯然,獨(dú)立于人的語音識別系統(tǒng)更符合實(shí)際需求,但比識別特定的人要困難得多。此外,根據(jù)語音設(shè)備和通道,可分為桌面(PC)語音識別、電話語音識別和嵌入式設(shè)備(手機(jī)、PDA等)語音識別。不同的采集通道會扭曲人類發(fā)音的聲學(xué)特征,因此需要構(gòu)建自己的識別系統(tǒng)。語音識別的應(yīng)用領(lǐng)域非常廣泛。常見的應(yīng)用系統(tǒng)有:語音輸入系統(tǒng),更符合人們的日常習(xí)慣,比鍵盤輸入更自然;語音控制系統(tǒng),即使用語音識別控制設(shè)備操作比手動控制更快捷方便,可應(yīng)用于工業(yè)控制、語音撥號系統(tǒng)、智能家電、聲控智能玩具等多個領(lǐng)域。
    2021-08-25
  • 檢信智能 Allemotion OS 情緒識別
    檢信智能 Allemotion OS 情緒識別 情緒識別原本是指個體對于他人情緒的識別,現(xiàn)多指AI通過獲取個體的生理或非生理信號對個體的情緒狀態(tài)進(jìn)行自動辨別,是情感計算的一個重要組成部分。情緒識別研究的內(nèi)容包括面部表情、語音、心率、行為、文本和生理信號識別等方面,通過以上內(nèi)容來判斷用戶的情緒狀態(tài)。情緒是綜合了人的感覺、思想和行為的一種狀態(tài),在人與人的交流中發(fā)揮著重要作用。情緒是一種綜合了人的感覺、思想和行為的狀態(tài),它包括人對外界或自身刺激的心理反應(yīng), 包括伴隨這種心理反應(yīng) 的 生 理反應(yīng)。在 人 們 的 日 常工作和生活中,情緒的作用無處不在。在醫(yī)療護(hù)理中,如果能夠知道患者、特別是有表達(dá)障礙的患者的情緒狀態(tài),就可以根據(jù)患者的情緒做出不同的護(hù)理措施,提高護(hù)理 量。在產(chǎn)品開發(fā)過程中,如 果能夠識別出用戶使用產(chǎn)品過程中的情緒狀態(tài),了解用戶體驗(yàn),就 可 以 改 善 產(chǎn) 品 功 能,設(shè) 計 出 更 適 合 用戶需求的產(chǎn)品。在各種人-機(jī)交互系統(tǒng)里,如果系統(tǒng)能識別出人的情緒狀態(tài),人與機(jī)器的交互就會變得更加友好和自然。因此,對情緒進(jìn)行分析和識別是神經(jīng)科學(xué)、心理學(xué)、認(rèn)知科學(xué)、計算機(jī)科學(xué)和人工智能等領(lǐng)域的一項(xiàng)重要的交叉學(xué)科研究課題。關(guān)于情緒識別的普遍性觀點(diǎn)最早可以追溯到查爾斯·羅伯特·達(dá)爾文(Charles Robert Darwin)在 1872 年所寫的《人類和動物的表情》一書, 他認(rèn)為人的情緒和表情是天生的、普遍的, 人們能夠識別來自不同文化、種族的人的情緒和表情。從上世紀(jì) 60 年代起許多心理學(xué)家通過研究都得出了情緒識別具有普遍性的結(jié)論 。Ekman 和 Izard 提出人類共具有 6 種基本表情 (basic emotion):高興、憤怒、恐懼、悲傷、厭惡和驚奇。然而, 其他一些心理學(xué)家則認(rèn)為情緒的表達(dá)和識別是后天習(xí)得的, 具有文化差異性, 這文種化上的差異在面部表情的強(qiáng)度和對情緒體驗(yàn)的推斷等方面都有所體現(xiàn)。對應(yīng)于不同的情緒誘發(fā)方法,情緒識別方法也各不相同,常見的情緒識別方法主要分成 兩大類:基于非生理信號的識別和基于生理信號的識別?;诜巧硇盘柕那榫w識別方法主要包括對面 部 表 情 和 語 音 語 調(diào) 的 識 別。面 部 表 情 識別方法是根據(jù)表情與情緒間的對應(yīng)關(guān)系來識別不同的情緒,在特定情緒狀態(tài)下人們會產(chǎn)生特定的面部肌肉 運(yùn) 動 和 表 情 模 式,如 心 情 愉 悅 時 嘴 角 角 上翹,眼部會出現(xiàn)環(huán)形褶皺; 憤怒時會皺眉,睜大眼睛等。目前,面部表情識別多采用圖像識別的方法來實(shí)現(xiàn) 。語音語調(diào)識別方法是根據(jù) 不 同 情 緒 狀態(tài)下人們的語言表達(dá)方式的不同來實(shí)現(xiàn)的 ,如心情愉悅時說話的語調(diào)會比較歡快,煩躁時語調(diào)會比較沉悶?;诜巧硇盘栕R別方法的優(yōu)點(diǎn)是操作簡單,不需要特殊設(shè)備。缺點(diǎn)是不能保證情緒識別的可靠性,因?yàn)槿藗兛梢酝ㄟ^偽裝面部表情和語音語調(diào)來掩飾自己的真實(shí)情緒,而這種偽裝往往不易被發(fā)現(xiàn)。其次,對于患有某些特殊疾病的殘疾人來說,基于非生理信號識別的方法往往難以實(shí)現(xiàn)。基于生理信號的情緒識別方法,主要包括基于自主神經(jīng)系統(tǒng)( autonomic nervous system) 的情緒 識別和 基 于 中 樞 神 經(jīng) 系 統(tǒng)( central nervous system) 的情緒識別?;谧灾魃窠?jīng)系統(tǒng)的識別方法是指通過測量心率、皮 膚 阻 抗、呼吸等生理信號來識別對應(yīng)的情緒狀態(tài)。美國麻省理工學(xué)院的 Picard 等人通過對人體自主神經(jīng)系統(tǒng)的測量和分析,識別出了平靜、生氣、厭惡、憂傷、愉悅、浪漫、開心和畏懼等 8 種不同的情緒。這些自主神經(jīng)系統(tǒng)的生理信號雖然無法偽裝,能 夠 得 到 真 實(shí) 的 數(shù) 據(jù),但 是 由 于 準(zhǔn) 確率低且缺乏合理的評價標(biāo)準(zhǔn),因此不太適合于實(shí)際應(yīng)用。基于中樞神經(jīng)系統(tǒng)的識別方法,是指通過分析不同情緒狀態(tài)下大腦發(fā)出的不同信號來識別相應(yīng)的情緒。這種方法不易被偽裝,并且與其他生理信號識別方法相比識別率較高,因此越來越多的被應(yīng)用于情緒 識 別 研 究 。
    2021-08-24