立即注冊 找回密碼

QQ登錄

只需一步,快速開始

第一站長論壇

搜索
第一站長論壇 首頁 資訊 查看內容

如何讓智能體在產生疑惑時向人類求助?微軟研究院用模仿學習解決了這個問題

2019-6-29 09:43| 發布者: admin| 查看: 43| 評論: 0

摘要: 雷鋒網 AI 科技評論按:隨著智能語音等 AI 技術逐漸落地到現實場景中,智能語音助手、智能機器人等各類形態的 AI 的身影隨處可見,真正走進了人們的日常生活中。然而,其目前在技術方面還是存在很多不成熟的地方,一個不留神便是一個大型「翻車現場」,另外,人機交互的不自然性也是其存在的一大挑戰。對此,微軟研究院提出用模仿學習來解決這一問題,并開發出了搭載語言助手的基于視覺的導航(VNLA),不僅能夠訓

雷鋒網 AI 科技評論按:隨著智能語音等 AI 技術逐漸落地到現實場景中,智能語音助手、智能機器人等各類形態的 AI 的身影隨處可見,真正走進了人們的日常生活中。然而,其目前在技術方面還是存在很多不成熟的地方,一個不留神便是一個大型「翻車現場」,另外,人機交互的不自然性也是其存在的一大挑戰。對此,微軟研究院提出用模仿學習來解決這一問題,并開發出了搭載語言助手的基于視覺的導航(VNLA),不僅能夠訓練智能體回答開放式的提問(即不需要提前規劃好指令),還能夠訓練其在需要的時候通過語言策略性地尋求幫助,這就大大增強了智能體的自主學習能力,也大大提高了任務的完成度和準確性。微軟研究院在博客上發布了這一結果,雷鋒網 AI 科技評論編譯如下。

今天,人們使用個人數字助理來幫助安排行程、播放音樂、打開或調整其他設備以及回答一些諸如「游戲什么時候開始?」或「最近的硬件商店在哪里?」的基本問題,例如:但是如果這些助手可以在日常生活中完成更多協助性工作,又會怎么樣呢?

想象一下,如果現在是晚上 10 點,你剛剛躺下來想要睡覺,此時你突然想到了一件事而驚醒過來:我關后門了嗎?別擔心:你的帶有輪子、能移動的個人數字助理能夠解答你的問題,而你也不必起床讓夜晚的睡眠受到干擾。在你讓數字助理為你檢查門是否關閉之氣,它會向你問清楚「哪個門?」你回復它后,它就會走開去探查門是否關閉。它會繞道的后面,辨認到指定的門,并確定門是否是打開的狀態,如果門是打開的,它就會幫你關好門,并返回來向你報告:「開著的門已關好!」你就能放下心,安心入睡了。

對于那些從事人工智能工作的人來說,這是一個夢想的場景。我們的目標是讓現實世界中的機器人和數字、虛擬和混合世界中的智能體能夠通過語言自然地與人交流,從而幫助人類完成各種任務。但我們距離這一目標還有一段路要走,因為即使是相對簡單的場景,例如讓家用輔助機器人幫助我們找到亂放的手機(哦,這將是多么有用!)也并不像看起來那么容易。

為了讓這個夢想成為現實,我們開發出了搭載語言助手的基于視覺的導航(VNLA)。VNLA 是一種新的基礎視覺語言任務,不僅能夠訓練智能體回答開放式的提問——即不需要提前規劃好指令,還能夠訓練其在需要的時候通過語言策略性地尋求幫助。這種能力依賴于我們稱之為「間接干預的模仿學習」(I3L)的新框架。我們將在年度計算機視覺與模式辨認會議 CVPR?上展示關于這項工作的論文(論文檢察地址:),演示該方法的視頻大家可前往 觀看,同時也可以前往 GitHub下載這項結果的的代碼和數據腳本。

是什么阻礙了 AI 的發展?

諸如「檢查后門」和「幫我找到手機」等哀求對當今的 AI 系統來說,極具挑戰性。此中:

1.將自然語言轉為視覺:智能體必須明白它被要求干什么。在尋找丟失的手機的案例中,這意味著它必須要知道主人所說的「我的」究竟是指哪個手機,「手機」這個詞在視覺上是指什么物體以及需要找到的手機何時出現在它的視線中。

2. 在沒有 GPS 的環境中導航和避免碰撞:智能體還必須了解手機有大概被遺落在房屋中的哪些常見位置以及如安在沒有明確定位信息的情況下,通過即時定位、地圖構建(SLAM)或 GPS 有效導航到這些位置。此外,就像人類一樣,智能體必須能夠在沒有獲取房屋清楚的尺度地圖的情況下,來執行此操作。此外,它還必須導航到這些位置,而不會碰撞到房屋內的人和物。

3. 更自然地與人互動:當人們尋求另一個人的幫助時,他們之間的溝通不僅限于一個單一的指令,而是還有一些有來有回、傳達和吸收信息的互動。通常在提供幫助時,人們緊接著會進一步問一些細節的問題,進而從尋求幫助的生齒中獲得有價值的反饋。比如說在上面的手機中,也許他們會詢問「主人」手機外殼的顏色或其記憶中最后使用手機的位置,而且他們可以在這一尋找過程中的任何時候提出這類問題。我們認為機器人和智能體必須具備這種相似的能力以此來協作完成任務。對于機器人和智能體而言,第一步就是要了解如何恰當地處理「已知的未知」情況。換句話說,它們需要了解它們什么時候是不確定的并應該尋求幫助。

解決障礙

這些挑戰中的每一個都代表著對人工智能發展至關重要的有效研究領域。在交互式機器人的應用中,這些挑戰往往同時發生,這也加劇了收集連續交互數據來訓練此類智能體的難度,因此研究這些領域對于交互式機器人而言顯得尤為重要。這些設置與生俱來就是是非獨立同分布(i.i.d)的,這就確定了樸素監督學習在部署時會失敗。

圖 1:在不可見的環境中運行 VNLA 任務示例。(a)使用智能體的規劃路徑注解的環境鳥瞰圖。智能體僅通過第一人稱視圖觀察環境。(b)哀求者(戴帽子的那個)要求智能體在廚房里找一條毛巾。智能體面前有兩條毛巾,但是該房間的標簽是「浴室」。在沒有給定房間標簽的情況下,智能體會忽略它們。(c)智能體離開浴室。如果感到疑惑了,智能體就向顧問(留著小胡子的)發出求助信號。顧問回答了「更簡單易懂」更低一層的子目標:「向右轉 60 度,向前轉,向左轉。」(d)執行子目標后,智能體離廚房更近,但仍然感到困惑,于是它再次哀求幫助。(e)智能體執行第二個子目標時得到幫助,最終找到指定的毛巾。

在我們的任務中,智能體通過能將其所看到的場景捕捉為圖像的單眼攝像頭「看到」周圍環境的智能體,我們讓它找到在特定位置的目標。例如,我們可以讓它在廚房中尋找毛巾,如圖 1 所示。我們通過對任務提出解決路徑,接納多種方式來應對這些挑戰。

首先,我們利用豐富的模擬環境來幫助將語言轉為視覺。機器人和視覺領域的研究越來越依賴于豐富的高保真模擬環境,例如用于端到端訓練智能體的 AirSim。我們使用能通過房間到房間的模擬器對真實房屋進行高保真 3D 重 建的 Matterport3D 數據集,在模擬真實環境訓練我們的智能體。

其次,我們選擇將模仿學習而不是強化學習作為訓練范式。模仿學習指的是智能體直接從專家演示學習而不是從傳統強化學習中使用的獎勵函數學習,它在環境試驗中,學習速度取得了指數級增長。但是一個不足之處就是模仿學習往往依賴人類專家們演示完成任務所需的最佳行動步驟,這大概導致成本很高。但在這里并非如此,這也是我們選擇使用 IL 的另一個原因。仿真訓練在訓練期時能提供一個自然的程序化專家,而不產生額外的成本,而這個程序化專家則是一種可以獲取全環境狀態的規劃算法。具體來說,我們有一個最短路徑算法(A *),它知道完整的地圖以及該場景中所有物體所處的位置。這種模仿比智能體擁有更多得多的知識和信息的專家的方式,已經有效地應用于機器人的復雜規劃問題中。

有疑惑?那就求助!

最后而且最重要的事情是,我們要訓練智能體懂得尋求幫助。在我們的任務中,還有另外兩個關鍵角色:哀求者——在現實場景中發布任務的人 ;顧問——在現實場景中發布任務的人通常也是顧問,但在理論上,顧問可以是能夠引導智能體的任何實體。在執行任務期間,智能體可以在感到疑惑時向顧問尋求幫助,而且可以按照預定的次數多次尋求幫助。預定需求幫助的次數很重要; 否則智能體大概會為了提高結果率而記錄下「尋求幫助」的程序,而學會在每一步都尋求幫助,這在很大程度上就違背了原意。畢竟誰真的想要一個需要問過一百萬個問題才能完成任務的助理呢?智能體通過語言獲得幫助,旨在重新規劃軌跡去完成任務。例如顧問大概會說,「從你所在的位置,向右轉,然后走三步。」

這種通過語言提供幫助的方式試圖模仿人們用以互相幫助的自然交流方式。智能體擁有了在關鍵節點尋求幫助的能力,就能夠以更大概率地成功完成任務。在其從未見過的環境中,它要比無法尋求幫助的基線智能體的性能高五倍以上。在訓練期間,我們還會教智能體應該在什么時候尋求幫助。在智能體從未見過的測試場景中,學習如何有策略地尋求幫助的這種形式給智能體帶來的性能上的提高,要比隨意尋求幫助的方式高出約 38%,而且比一開始就尋求幫助的方式高出約 72%。

對于 AI 智能體而言,了解自己什么時候處于不確定狀態并學會從尋求幫助中獲益尤為重要,這不僅是因為這種方式有助于創造更自然的互動,而且還因為 AI 智能體是不完美的,而干預則有助于幫助智能體穩當地完成復雜的哀求。

圖 2:導航模塊的兩個解碼過程。(a)第一解碼過程計算臨時的導航分布,其用作計算幫助哀求分布的特征。(b)第二遍計算最終的導航分布。

如圖 2 所示,在整個智能體策略架構中,智能體運行兩個前向傳遞。第一次傳遞,計算了暫定的導航分布,并將其用作尋求幫助的決策的一個特性。如果導航分布存在很多不確定性,那么只要預定次數允許,智能體就可以決定是否應該停下來尋求幫助。第二次傳遞,它考慮了額外提供的幫助(如果有哀求幫助的話),計算出最終的導航分布。

我們的框架旨在幫助我們的個人數字助理實現人們互相幫助時常見的那種有來有回的交流。我們將 VNLA 視為實現更豐富的人類—AI 協作的基礎,在這種協作中包含更自然的語言溝通,而機器人和智能體在這種協作中也可以換位思考。

via: 雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

深圳风采开奖
免責聲明:如果侵犯了您的權益,請聯系我們,我們會及時刪除侵權內容,謝謝合作!

鮮花

握手

雷人

路過

雞蛋

最新評論

QQ|Archiver|手機版|小黑屋|第一站長論壇 ( 閩ICP備16019670號 )

GMT+8, 2019-7-6 02:19 , Processed in 0.046908 second(s), 25 queries .

Powered by Discuz! X3.4 © 2001-2013 Comsenz Inc & Style Design

本站提供网上自由讨论使用,所有言论内容来自互联网并不代表本站立场,本站不负任何责任.
如发现有侵权行为,请与我们联系. 我们将立刻从网站上删除,并向所有持版权者致最深歉意.
联系QQ:2837195923

返回頂部