端云一體、軟硬結合,先聲互聯想要提供智能語音交互一站式解決方案
智能語音交互成為新趨勢,以麥克風陣列為代表的聲學前端器件的重要性日益凸顯。從傳統聲學器件廠商、互聯網公司、聲學初創公司、語音技術服務商都紛紛推出相關產品。我們近期接觸的先聲互聯科技也是其中的一家,主要面向家居、車載等消費應用市場,為有智能語音交互需求的客戶提供包括聲學結構設計測試、硬件模組設計加工、終端語音模塊研發、端云一體語音交互、場景定制NLP開發、產品準入認證與評測等在內的端云一體、軟硬結合的一站式解決方案。
當前,智能語音交互的諸多問題,都是伴隨著遠場出現的。移動互聯網時代,語音交互多是發生在近場環境中,比如語音通信、調用Siri等語音助手,但目前家居、車載、可穿戴等智能語音交互的常見場景中,人與機器的交互基本都是發生在以米計量的距離內。一般來說,人聽到的聲音包括直達聲和反射聲(人聽自己說話的聲音還包括骨導傳輸),當距離聲源較遠以后,聲波的反射效果增強形成較強的混響,特別是在一些聲學效果較差的環境,如果附近還有其他的噪聲干擾,例如電視、風扇、汽車等等,即便我們人類也很難聽清遠處的人聲,這就直接影響了遠場語音識別的準確率,也會產生遠講語音喚醒和識別等難題。要想提升智能語音交互的體驗,KUKA機器人維修,就必須解決遠場帶來的這些問題。
為此,先聲互聯研發了自己獨有的多通道語音前端信號處理引擎,綜合利用了多麥克風空間濾波、語音分離、解混響和聲源定位等多項基于物理建模的信號處理技術,KUKA機器人示教器維修,并融合了基于機器學習的數據建模機制,可以適用于遠場免提模式的語音識別和通信應用,幫其抑制背景噪聲、非平穩干擾、設備回聲、房間混響等不利聲學因素,提升聲學效果及相關用戶體驗。
相比于目前市面上的大部分方案,先聲互聯多通道語音前端信號處理引擎采用了物理信號建模與機器學習數據建模相結合的實現路徑,這使得使用更少的麥克風達到更好的效果有了可能,對麥克風間距、陣列拓撲結構、以及陣元一致性要求也低于傳統的陣列增強算法,實施效率和靈活性較高。目前市面上大多聲學方案都僅采用物理信號建模的處理方式,這也是比較經典的處理方式。但隨著機器學習等技術的成熟,數據建模的效果也逐步體現。比如,GoogleHome智能音響,僅使用2個麥克風的陣列達到了一定的效果,背后也是有類似技術的支持。
之所以做這樣的嘗試,與團隊過去聲學領域的研究和經驗密不可分。創始人兼CEO付強博士于2000年語音處理專業博士畢業,并在美國和歐洲的一流科研機構從事過相關的博士后研究,曾是中國科學院聲學所的研究員,20余年語音信號處理領域的研究,在包括IEEETrans.等國內外權威學術刊物及會議上發表論文70余篇,專利10余項。完成了國家和省部委的幾十項科研課題,其中多項成果在相關部委列裝。并在2006年和2008年分別和通用、大眾合作,將遠場語音方案應用到車載環境中。2013年與長虹合作完成國內首顆智能語音SoC。2014年帶領團隊與海信合作完成國內首臺具有遠講語音交互功能的智能電視。2016年中國語音產業聯盟先進個人。另外,付強博士的學生團隊曾在2016年國際語音分離和識別挑戰賽CHiME4中,在主辦方提供的基線識別系統上,僅靠在前端處理部分做的工作,就取得了較好的綜合成績;在前端算法性能提升的橫向比較當中,位于國際前列。
為了方便客戶快速開發,先聲互聯也希望提供圍繞智能語音交互相關的更多產品和服務,包括端云一體語音交互、場景定制NLP開發、測試服務等。語音交互方面,先聲互聯在后端對接了百度、騰訊、阿里、亞馬遜的智能語音服務,也自研發了自然語言處理相關技術,可以為用戶提供場景定制NLP開發。公司也希望未來可以借助云服務,成為語音內容分發的入口。
目前,先聲前端處理引擎可支持家居、車載、會議等多種應用場景。根據不同的場景需求,先聲前端處理引擎目前可支持三種不同的解決方案:
●雙麥克風方案。主要面向以家用電子為主的消費類電子應用,可以靈活地應用于消費類音響、電視機頂盒、空調以及網絡路由器等設備;
●四到六麥克風方案。主要面向高端家用電子產品、企業級應用以及機器人,陣列拓撲并不限于標準的線陣和環陣,可以根據產品形態定制陣列結構;
●七麥克風以上方案。主要面向對性能要求高的企業級應用和機器人。
與市面上一些廠商做標準化的硬件路徑不同,先聲互聯會在固定方案的基礎上,會針對客戶做一定的定制,以達到更好的效果。CEO付強博士表示,因為團隊已有多年的產品落地經驗,目前這種定制更多是體現在麥克風陣列拓撲結構的變化上,可以做到根據客戶的ID設計來給出最佳的選擇,也是由于先聲互聯的前端處理算法自身的適應性較強,所以這種定制并不會帶來系統的復雜,也不會增加工時。事實上,目前現階段,C端消費級市場的客戶很多還處于嘗試階段,銷量還相對有限,短期內各家廠商的訂單量都還不大。
目前先聲互聯的技術及產品已有多項落地,TCL智能電視、海信智能電視、物靈的luka閱讀養成機器人、極米科技的LightankW100、數字家圓的親見H2、360的巴迪龍兒童陪伴機器人等產品都采用了先聲互聯的遠講算法以及麥克風拾音模組(由共達電聲合作生產)。此外,先聲互聯也正在和小米、聯想、阿里、騰訊、優必選等公司就某些智能硬件產品展開合作。
因為處于產業鏈的上游,此前聲學前端器件廠商給外界留下的印象多是不賺錢。幾家聲學相關的上市公司,聲學直接相關的業務營收也都相對有限。不過,智能家居、智能車載等新場景上,傳統輸入方式受限,對智能語音交互需求有了提升。調研機構預測,2020年聯網設備將達340億臺(激進數據預測或達460億臺),產值也有望增長到500億美元;屆時全球語音市場規模預計將達到191.7億美元。這樣的前景之下,這一領域不僅涌現出了多家初創公司,也吸引了資本的青睞。成立于2016年的聲智科技已于2016年底獲得1600萬元Pre-A輪融資,由洪泰基金領投,峰瑞資本跟投;成立于2016年下半年的GMEMS已經完成來自北極光的A輪融資,庫卡機器人驅動器維修,預計今年的訂單量可以達到七八千萬元。