五月婷婷欧美视频_少女频道在线观看高清_欧美日韩视频一区二区三区_7777精品伊久久久大香线蕉语言

首頁 > 機器人資訊 > 科技文硬創解密巨頭們所關注的聊天機器人

科技文硬創解密巨頭們所關注的聊天機器人

日期:2025-01-14   人氣:  來源:互聯網
簡介:chatbot是最近一段時間非常火的一個詞或者一個應用,不僅僅各大新聞媒體在熱炒bot的概念,各大巨頭也投入巨大的資源進行研發,arxiv上刷出bot相關的paper也更是家常便飯。炒作歸炒作,PR歸PR,不得不說一個尷尬的事實是市面上確實難以找到一個真正好用的bo……

chatbot是最近一段時間非常火的一個詞或者一個應用,不僅僅各大新聞媒體在熱炒bot的概念,各大巨頭也投入巨大的資源進行研發,arxiv上刷出bot相關的paper也更是家常便飯。炒作歸炒作,PR歸PR,不得不說一個尷尬的事實是市面上確實難以找到一個真正好用的bot。bot按照涉及的領域,分為開放域(open-domain)和面向具體任務(task-oriented)的bot。開放域要做的事情很大,更像是一個什么都能搞的平臺,不管你提什么樣的需求,它都能夠解決,有點trueAI的意思,而面向任務的bot則專注做好一件事情,訂機票,訂餐,辦護照等等。

說到開放域bot,大家接觸最多的也就是一些回答非常無厘頭的娛樂用bot,比如很多年前活躍在各大社交網站上的小黃雞,現在市面上活躍著很多號稱掌握了bot技術,在用深度學習解決bot技術的bot公司,都是這種,解決不了什么實際問題,就是能和大家聊上兩句,而且很多時候回答都是牛頭不對馬嘴的,機器人維修,十分可笑。

再說task-orientedbot,市面上最多的就是客服機器人,銀行也好,電商也罷,不想重復性地回答用戶的問題,就用一個客服機器人來應對,且不說效果如何,開發一個具體task的bot需要費不少工夫,而且后期還要大量的維護,因為太多的handcraftedfeatures被用到,整個bot的框架橫向擴展性相對來說較差,換一個場景基本上就需要重新開發一套,人力成本太高了。

bot的理想非常豐滿,大公司描繪的場景也確實很美,但現實的bot卻狠狠地澆了一盆冷水下來。期望越高,失望越大。如果媒體一味地吹捧bot,仿佛整個世界明天就會是bot的了,對bot的發展并無益處,捧殺只會帶來氣泡,破裂之后,一切如初。

功能強大的、開放域的bot在短期內是比較難實現的,但是如果降低期望,將bot不應當做是一種技術層面的革命,而應當做交互層面的革新才是理性的態度,bot作為一種入口,可能大家都不再需要一個隨身攜帶的終端,只需要找到一個可以識別身份,可以聯網的硬件,比如一面鏡子,就可以執行很多的task,訂機票、買東西等等等等。bot這個時候起到的是一個操作的入口和背后執行各種不同task的黑箱,我們不需要看到整個執行過程,也不需要知道原理是什么,通過一些簡單的語言交互,就能完成一些復雜的task,終端要做的事情就是反饋結果和接收輸入,執行的過程都在云端,各種bot云。

而這一切的關鍵是解決好task-orientedbot,用更多datadriven的解決方案來代替傳統的人工features和templates。

|問題描述

bot是一個綜合性的問題,涉及到下面三個主要問題:

1、responsegeneration(selection)

對話生成是最后一個步驟,是輸出的部分。簡單總結下,有四種solutions:

solution1直接根據context來生成對話,這方面最近的paper非常地多,尤其是seq2seq+attention框架席卷了NLP的很多任務之后,對話生成的benchmark也一次又一次地被各種model刷新著。對話生成的問題,被定義為基于某個條件下的生成模型,典型的根據context來predictwords,涉及到句子生成的問題,評價問題就會是一個比較難的問題。

solution2當然有的paper并不是將對話生成定義為語言模型問題,而是一個nextutteranceselection的問題,一個多選一的問題,給定一個context,給定一個utterancecandidatelist,從list中選擇一個作為response,當然這類問題的難度會小很多,評價起來也非常容易,但是數據集準備起來要多花一些功夫,而且在實際應用中不好被借鑒。

solution3rule-based或者說template-based,response的最終形式其實是填充了一個模板而成的,大多數的東西是給定的,只有一些具體的value需要來填充。這一類解決方案很適合做task-orientedbot,但過多的人工features和templates導致了其難以移植到其他task上。

solution4query-based或者說example-based,response是來自于一個叫做知識庫的數據庫,里面包含了大量的、豐富的example,根據用戶的query,找到最接近的example,將對應的response返回出來作為輸出。這一類解決方案非常適合做娛樂、搞笑用的bot,核心技術在于找更多的數據來豐富知識庫,來清洗知識庫。但畢竟respnose是從別人那里拿出來的,可能會很搞笑,但大多數會牛頭不對馬嘴。

2、dialogstatetracking(DST)

有的paper稱DST為belieftrackers,這個部件其實是bot的核心,它的作用在于理解或者捕捉userintention或者goal,只有當你真的知道用戶需要什么,你才能做出正確的action或者response。關于這個部分,會有DialogStateTrackingChallenge比賽。一般來說都會給定一個state的范圍,通過context來predict用戶屬于哪個state,有什么樣的需求,是需要查詢天氣還是要查詢火車票。

3、usermodeling

bot面向具體的業務,都是和真實的user來打交道的,如果只是簡單的FAQbot,回答幾個常見的問題可能不需要這塊,但如果是其他更加復雜、細致的業務,都需要給用戶建模,相同的問題,bot給每個人的response一定是不同的,這個道理非常簡單。usermodeling,需要涉及的不僅僅是簡單的用戶基本信息和用戶的一些顯式反饋信息,而更重要的是用戶的historyconversations,這些隱式的反饋信息。就像是推薦系統火起來之前,大家都是中規中矩地賣東西,但是有一些聰明人開始分析用戶的行為,不僅是那些點贊行為,更多的是那些用戶不經意間留下的蛛絲馬跡,從而知道了用戶對哪些東西潛在地感興趣,也就是后來推薦系統在做的事情。對user進行建模,就是做一個個性化的bot,生成的每一個response都有這個user鮮明的特點。

|語料

大型的語料都是用來訓練開放域bot對話生成模型的,數據源一般都是來自社交網站。而對于task-orientedbot來說,客戶的數據一般規模都非常地小,這也正是難以將datadriven的方案直接套用到task-orientedbot上的一個主要原因。

[1]中給出了bot訓練語料的survey,感興趣的同學可以讀一下這篇survey。

圖來自文章[13],英文的語料確實比較多,SinaWeibo那個語料是華為諾亞方舟實驗室release的[12]。從twitter或者微博上產生bot數據的話,conversationalinnature效果不如從ubuntuchatlogs這種聊天室產生的數據更加適合訓練response生成模型,因為更加天然無公害。文章[5]也用了一個大型中文語料,數據來自百度貼吧。

|模型

研究bot的paper是在太多了,這是一個非常活躍的研究領域,細分的方向也非常的多,接下來按照所針對的研究問題來分別介紹一些模型。

seq2seq生成模型

免責聲明:本網部分文章和信息來源于互聯網,本網轉載出于傳遞更多信息和學習之目的。如轉載稿涉及版權等問題,請立即聯系網站所有人,我們會予以更改或刪除相關文章,保證您的權利。
主站蜘蛛池模板: 湖口县| 苏尼特右旗| 江口县| 重庆市| 新密市| 腾冲县| 平远县| 藁城市| 夏河县| 柳河县| 齐齐哈尔市| 岚皋县| 张家川| 逊克县| 江阴市| 宁夏| 宁化县| 汽车| 花莲市| 北京市| 岳阳市| 玛沁县| 巴林左旗| 邯郸县| 丹巴县| 盐亭县| 英吉沙县| 开原市| 顺昌县| 沭阳县| 许昌市| 长兴县| 太谷县| 页游| 汉阴县| 安岳县| 南昌市| 中山市| 桃园县| 无极县| 黑山县|