讓人工智能系統更負責任的落地,AINow新報告給出10條建議
近日,美國研究組織AINow發布第二份人工智能年度研究報告。這份報告是「AINow」人工智能研討會的一部分,該研討會邀請了近百名相關領域內的研究人員,討論人工智能對社會經濟的影響。報告指出,人工智能技術正發展迅速,尚處于早期階段的人工智能技術正在從人臉掃描、人力推薦以及網絡借貸等常見的應用場景中不斷滲透到我們的日常生活里。
盡管人們對快速發展的人工智能抱有很大的預期,但是我們也看到了這一高風險的領域正面臨巨大的挑戰。例如在刑事司法中,非盈利媒體ProPublica的調查小組發現,法庭和執法部門用于預測刑事被告再犯的算法,可能對非裔美國人存在一定的偏見。這一現象隨后被許多學者證實。在醫療保健領域,匹茲堡大學醫學中心的研究發現,一種用于治療肺炎患者的AI系統,機器人維修,缺失了一項對嚴重并發癥的風險評估。在教育領域,德克薩斯州的評教算法被暴露出存在嚴重的缺陷,教師們也成功起訴了他們所在的學區。
或許這些例子僅僅是一個開始,未來還會有更大的挑戰。其中一部分原因在于,目前的AI領域缺少標準化的測試模式和審核方法,無法完全避免算法偏差,保障絕對的安全。
然而,這些早期的AI系統正被應用到多個行業,包括醫療、金融、法律、教育以及各種辦公場地。這些系統也已經滲透到我們生活的方方面面,它們可以用于預測我們的音樂愛好、生病的概率、適合的工作以及借貸的數額等。
這里的問題不是蓄意對人工智能的濫用。而是人們在使用AI技術的過程中,沒有用于確保公平公正的流程和標準,更沒有思考它們所帶來的社會效應。當研發的藥品在推向市場之前,它必須要經過嚴格的科學測試,并持續檢測其中長期的效果。其實高風險AI的應用也當如此。謹慎是非常必要的,因為如果一旦出錯,許多人會受到嚴重的傷害。
作為報告的一部分,AINow還為AI產業的研究人員和政策制定者提供了10條建議。這些建議并不是完整的解決方案,只是進一步工作的起點。AINow稱:「盡管AI產品正在迅速發展,但對算法偏見和公正的研究仍處于起步階段,如果我們想要確保AI系統得以被負責任地部署與管理,需要做的事情還很多。」
建議一:刑事司法、醫療、福利和教育等高風險領域內的核心公共機構不應再使用具有「黑箱」特性的AI技術及算法系統,包括未經審核和驗證的情況下使用預訓練模型,采用由第三方供應商授權的AI系統及內部創建的算法。
公共機構使用這類系統會嚴重引起人們對這類法定訴訟程序的擔憂。這些系統至少要經歷公共審計、測試及審查的過程,工業機器人維修,符合相應的問責標準。
這將帶來一個重大的轉變:提出的這項建議反映了AI及相關系統已經對部分重大決策產生影響。過去的一年里,也有許多能夠作證這一點的研究報告。人們在朝著這個方向邁進,本月,紐約市議會就開展了一項關于保障算法決策系統的透明度和測試的相關法案。
建議二:在發布AI系統之前,企業應該進行嚴格的預發布測試,以便確保系統不會因訓練數據、算法或其他系統設計的原因導致任何錯誤及偏差的發生。
AI是一個發展迅猛的領域,開展測試的方法、假設以及測試結果,都應該是公開透明、有明確版本的,這有助于應對更新升級以及新的發現。
那些開發系統并從中獲利的人應該肩負起相應的測試及保障環節的責任,包括預發布版本的測試。AI領域距離標準化方法的實現還有很長的路要走,這也是建議這些方法和假設需要公開審核和討論的原因。如果隨著時間的推移,AI領域能夠制定出具有魯棒性的測試準則,那么這種開放性是至關重要的。另外,即便在標準化方法中,實驗室測試也不能捕捉到所有的錯誤和盲區,這也是建議三出現的原因。
建議三:在AI系統發布之后,企業需要繼續監測其在不同環境和社區中的使用情況。
監測方法和結果的定義需要一個公開、嚴謹的學術過程,要對公眾負責。特別是在高風險決策環境中,應該優先考慮傳統邊緣化社區的看法和經驗。
確保AI算法系統的安全性問題是非常復雜的,是一個針對給定系統生命周期的持續過程,而不是一個完成后就可以遺忘的短期檢驗。只有在動態的使用案例和環境中進行監測才能確保AI系統不會在假設和領域發生改變時引入錯誤和偏差。同樣值得注意的是,許多AI模型和系統都有通用性,產品可能會采用一些即插即用的附加功能,如情感檢測或面部識別等。這意味著那些提供通用AI模型的企業也可以考慮選擇已經批準使用的功能,這些經過許可的功能已經把潛在的負面影響和風險等因素考慮在內。
建議四:需要進行更多的研究并制定相應的政策讓AI系統用于工作場所管理和監測中,包括招聘和人力資源環節。
這項研究將補充目前自動化取代工人的這一研究焦點,應該特別注意對勞工權利和行為的潛在影響,以及操縱行為的潛力以及在招聘和晉升過程中無意強化的偏見。
圍繞AI和勞動力的爭論通常會集中在工人流離失所的問題上,這是一個非常嚴重的問題。然而,了解AI算法系統在整個工作場所中的使用情況也同樣重要,KUKA機器人維修,包括行為推動,到檢測環節,再到績效評估過程。例如,一家名為HireVue的公司最近部署了一項基于AI的視頻面試服務,可以分析求職者的講話、肢體語言、語調,從而確定求職者是否符合一家給定公司的「優秀」模型。鑒于這些系統存在降低多樣性并鞏固現有偏見的可能性,人們需要做更多的工作來充分理解AI是如何融入管理、招聘、調度以及日常工作場所中的實踐中的。
建議五:制定標準,跟蹤系統整個生命周期的啟動、開發過程和訓練數據集的使用情況。
這是為了更好地了解和監控偏差及代表性曲解問題。除了更好地記錄訓練數據集的創建和維護過程,AI偏差領域的社會科學家和測量研究員應該繼續檢驗現有的訓練數據集,并努力理解已經存在在實際工作中的潛在盲區和偏差。
依賴于大規模數據,AI才能發現模式并作出預測。這些數據反映人類歷史的同時,也不可避免地反映了訓練數據集的偏差和成見。機器學習技術山擅長提取統計模式,常常會在試圖概括常見案例的過程下省略不同的異常值,這也是不根據數據表面價值進行偏差研究的重要原因。這樣的研究要從理解訓練AI系統的數據來自哪里開始,追蹤這些數據是如何在系統中使用的,而且要隨著時間推移驗證給定數據集的形態。在掌握這一點的基礎上,人們可以更好地理解數據中反映出的錯誤和偏差,進而研發出能夠在數據的開發和采集中識別這種情況并將其削弱的方法。
建議六:以跨學科視角看待AI的偏差研究與緩解策略的研究。