三大技術突破，助力國內智能語音產業(yè)規(guī)模飛速增長

2018年01月29日15:50:02 本網站我要評論(2)字號：T | T | T

關鍵字：應用汽車數字

據行業(yè)預測，中國智能語音產業(yè)規(guī)模將達到101.4億元。而智能語音產業(yè)的快速發(fā)展，將帶動智能家居、智能汽車以及智能穿戴設備等相關領域市場規(guī)模增長上千億元。

智能語音市場規(guī)模得以如此神速擴張，并且應用到多個領域，這必然離不開智能語音技術的不斷突破。那么，我們當前的語音技術達到了什么地步？換句話說，能夠實現什么樣的人機互動效果呢？

以歐拉蜜團隊為代表，我們一起來看看這些年國內智能語音行業(yè)的技術突破。

技術門檻高，首先得保證語音識別準確率

中國的語音識別研究起始于1958年，由中國科學院聲學所利用電子管電路識別10個元音。雖然與國外語音識別研究起步時間同步，但由于當時條件的限制，隨后一段時間內技術的進展較為緩慢。

較初，我國語音技術的研究一直以學術界為主，隨后才有企業(yè)逐漸涉足這個領域。由于語音識別技術準入門檻高、人才稀缺，經過多年研究與探索，一些國內企業(yè)終于在這個行業(yè)冒頭，形成了“一超多強”的局面。

歐拉蜜團隊在智能語音方面的研究已達5年。初期，歐拉蜜以設計出一個中文理解能力超越Siri 的智能語音助理為目標，開始投入人工智能相關研究領域，而長遠的目標則是致力于提供全方位的人機交互解決方案。

這5年里，歐拉蜜攻破了不少技術難關。首先要解決的，就是語音識別的精準度。

語音人機交互面臨著多重技術難題。例如，人聲距離不能過遠、發(fā)音要標準、環(huán)境要安靜、不能持續(xù)對話、不能被打斷……

（歐拉蜜開發(fā)套件拾音測試視頻截圖）

歐拉蜜團隊重點解決了這些語音識別方面的問題。目前，歐拉蜜的人聲識別準確度高達90%，并且可實現超遠距離識別（較遠可準確識別距離8米的人聲）。

同時，歐拉蜜團隊研發(fā)了具有強抗噪能力的語音識別技術與核心算法，包括語音活性檢測（Voice Activity Detection | Speech Activity Detection），回聲消除算法（AcousticEcho Cancellation ），噪聲處理算法（Noise Reduction & Cancellation），混響處理算法（Reverberation）等多項專利技術。

歐拉蜜還為企業(yè)用戶提供深度定制服務，比如對兒童聲音、嘈雜環(huán)境聲音進行訓練，可達到特殊要求下的語音識別高準確度。

難點在于自然語言語義理解和處理

“能穿多少穿多少”，這句話的意思，到底是要你“多穿”呢，還是要你“少穿”呢。同樣的，中文語境下，類似的歧義句還不在少數。

例如，“中國隊大敗德國隊”，不知是中國贏了德國，還是德國贏了中國；“小王跟我請了假”，不知是小王向我請了假，還是小王和我都請了假……那么，在這種歧義的語境下，我們需要更多的信息來明確原句的意思。

比較常見的 NLP/NLU 現有技術與方案有這么幾種。一是基于關鍵詞和簡單規(guī)則，但這樣誤抓率高、歧義多，無法精準抓取參數；二是基于ASR語法的擴展，但這種方式描述能力有限，可擴展性較低；三是基于統計的句法分析算法，這種算法準確率與性能不夠高，且不易處理上下文問題；較后呢，是處理語法擴展的編程，但這種程序復雜度很高。

那么，歐拉蜜是怎么解決這個問題的呢？

歐拉蜜團隊自主研發(fā)的語法描述語言（Syntax Language），可用靈活的規(guī)則來描述說法。同時，依托可全文檢索的結構化知識庫，輔助確定語法參數的合法性，消除歧義。

歐拉蜜采用了結合規(guī)則和統計的有機算法、時間和數字識別技術、以編譯器技術動態(tài)解析和匹配規(guī)則，能夠實現多維度的上下文支持能力，準確理解用戶的表達意圖。

（上圖為歐拉蜜語音助手截圖）

例如，當用戶連續(xù)輸入“今天上海的天氣”，“北京呢”，“買一張去那里的機票”。經過算法處理以及數據庫檢索，歐拉蜜能夠結合上下文，準確將“北京呢”理解為“北京今天的天氣如何”，并給出當天北京的天氣狀況。

同樣的，歐拉蜜也能獲取較后一句中的“那里”指代的是“北京”，并為用戶反饋當地去北京的機票信息。

以視覺行為偵測技術為輔助的語音人機交互

如果人機交互可以更加“智能”，那么它應該擁有哪些能力呢？歐拉蜜團隊進一步改進了語音機器人的喚醒功能，使人機交互更加流暢。

市面上主流的智能音響，目前使用的都是語音喚醒。由于智能音響沒有屏幕，一切功能都是通過語音來操控，喚醒功能也不例外。往往會用一句喚醒話術（通常是產品的名稱）來作為啟動標志，當人們對著智能音響說出這句話時，智能音響就會進行答復并開始接收你傳遞給它的信息。

你可能會說，語音喚醒已經很方便了，難道還能有什么改進余地嗎？

試想一下，日常生活中，當我們想要對另一人說話時常常會面向他，這時候，不需要叫對方的名字，對方也知道我們正在與他對話。如果機器也能做到這樣，那么“語音喚醒”都可以省略掉了。

歐拉蜜正是想賦予語音機器人這樣“人性化”的功能。因此，歐拉蜜團隊使用聲源定位并結合視線檢測（Eye Gaze Detection）技術，來幫助機器人確認用戶的說話對象。這樣一來，機器人們除了知道你在說話，還能夠判斷出你是否是在跟它說話，并自動喚醒。

亚洲精品影院一区二区-亚洲精品永久一区-亚洲精品中文一区不卡-亚洲精品中文字幕久久久久久-国产亚洲精品aaa大片-国产亚洲精品成人a在线

三大技術突破，助力國內智能語音產業(yè)規(guī)模飛速增長

相關閱讀:

亚洲精品影院一区二区-亚洲精品永久一区-亚洲精品中文一区不卡-亚洲精品中文字幕久久久久久-国产亚洲精品aaa大片-国产亚洲精品成人a在线

三大技術突破，助力國內智能語音產業(yè)規(guī)模飛速增長

相關閱讀:

三大技術突破，助力國內智能語音產業(yè)規(guī)模飛速增長