全民聊AI的時代,還有這些未開荒的領域等待我們去探索發現...
利用機器智能處理非常復雜的問題如今已經又十分標準的流程。首先需要收集十分巨量的訓練數據,數據量的大小也許超出了人類感知范圍;隨后對數據進行預處理,使得其中包含的關系可以較為容易的進行處理(結構化以及特征工程)。最后,將這些數據喂到高性能的并行計算機中并利用各種標準的機器學習算法來進行處理,包括邏輯回歸、深度神經網絡、k均值聚類雖然名字有點拗口,但重點是這些算法在高質量的開源包中廣泛存在的。
Google作為這一領域的先驅,將機器智能用于廣告投放、機器翻譯、垃圾郵件過濾以及Youtube上的視頻推薦,甚至應用到了目前的自動駕駛汽車中去,創造了數十億美元的價值。
Google令人驚訝的成功,不僅在于其實現的規模和多樣性,更在于將傳統智慧與人工智能與機器學習領域進行結合后所爆發出的驚人力量。很多聰明人小心求證并論證如何建立AI的理論再一次被證明是錯的(這在歷史上不止一次的發生)。
從而人們開始注意到數據有效性中不合理的方面:通過對一簡單的模型供給龐大的數據將傳統的經驗理論實現方式壓得粉碎,而這些方法在大數據之前是世界處理這類問題的主要手段。
在很多實際情況中,Google將很多曾被認為需要強AI才能解決的問題成功的通過結合人類智慧和弱AI得以解決,利用新的匹配的輸入取代上文提到的龐大數據。而這一點金術的魔力來自于大型的中心化云服務的誕生。
如今谷歌在這一方向走得更遠,他們提出了一個偉大的公司使命:重構世界的信息,并讓信息的接入無處不在發揮作用。它成功的將網絡世界中的規則和可能性遷移到了我們現實生活的物理世界中來。這一切都反映在其機器學習和人工智能的實現重。
我們不禁要問這難道就是AI唯一可行的途徑嗎?谷歌和其他技術巨頭都在瘋狂的購買AI和機器人公司,系統的向機器學習能帶來更高競爭力的利于轉型并雇傭了大批的機器學習專家,他們仿佛想要表達游戲已經結束了。但是在這一切的背后是我們知之甚少的大量未公開的研究計劃,我們依然可以樂觀了做出假設,這一領域依然有很多方向充滿機會,至少沒有形成壟斷的格局。
筆者認為這些方向具有下面三個方面的特征:
1.數據集規模本身就很小,庫卡機器人驅動器維修,進一步收集數據要么會觸碰到法律紅線,要么需要高昂的成本,甚至進一步收集數據是不可能的。但需要注意一條上限:有的時候數據收集的僅僅只需要等待合適的投資和努力,例如將地圖車開到地球每一個角落的大街小巷。
2.不用復雜精準的模型就無法進行解釋的數據。當然其中表現出的數據有效性可以由大數據下一大堆模型的簡單統計計算就可以得到。
3.由于法律、政治、合同等原因無法從用戶和客戶上采集的數據。這造成了很多小數據而不是大數據的問題。
基因數據就具有上述1、2兩個特征。將基因序列稱為小數據你可能會感到奇怪,但你需要明白,地球上只有幾十億人,每一個人都攜帶有幾十億的編碼。這意味著大多數基因(包括很多完美的基因)我們將永遠沒有機會觀測到。另一方面,我們根據采集到的數據,來對如此豐富的編碼分析出的模式很可能會面臨過擬合的錯誤。
全基因組關聯分析得到了這個令人失望的結果,但對于基因序列相對直接的統計學分析代表了第一次通過基因識別和預測疾病的努力,這也強化了這一領域需要更多關于細胞對于基因變化的轉錄和翻譯機制知識的合作需求。
另一個有趣的例子是關于在未知環境中的感知和自動導航的內容。谷歌目前的無人車是通過預置的高精度地圖來幫助它進行定位和導航的。
沒有預先的信息,機器人將會完全迷失在喧囂的世界中。未來將會有成千上萬的自動駕駛汽車和機器人進入我們的生活,他們中的大多數都需要一套可以實時進行感知和定位的系統來幫助他們工作。但如果將自動駕駛設備放到一個它完全沒有到過的地方(就像火星車一樣),或是面對迅速變化甚至與靜態地圖完全相反的情形,機器人將為怎么樣呢?我們需要明白,機器人維修,在真實世界中,有很多地方是不可測量或者谷歌的無人車無法輕易進入的。
其他的例子包括通過公開數據和財報來解讀和預測公司的表現(第一和第二種特征);直接通過傳感器數據來理解制造業或者其他商業流程,并提出改進建議(第二第三種特征);通過真實信息進行優化和決策,這個領域還遠遠沒有成熟(以上三種特征都有)。
這個領域還有很長的路要走,KUKA機器人維修,但是我確實在其中看到了一些機會。這并不是這些大公司不能夠研發這方面的應用,而是因為這些問題與這些公司根深蒂固的文化、組織結構以及現有的能力不匹配,才使得更多的市場參與者有了發展和進步的空間。這將正是AI領域未被發掘的新機會!