科技前瞻

MIT 研發「讀心術」裝置,用戶在心中默念即可與電腦溝通

麻省理工學院(Massachusetts Institute of Technology)開發出一種人機介面,用戶只需在心中默念,不需實際說話,電腦就能將其解讀成文字。

智能增強裝置

這套系統被命名為 AlterEgo ,是由可穿戴裝置及電腦系統組成。電極裝置接在下巴及臉部,以便接收內心默念所觸發的神經肌肉訊號。這個裝置還包括一對骨傳導耳機,這種耳機沒有耳塞,以便在不打斷用戶交談的情況下傳遞資訊。 在一項實驗中,受測者使用該系統默念對手在西洋棋中的動作,並以耳機聽取電腦的策略。

領導此系統研發的 MIT 媒體實驗室(MIT Media Lab)研究生卡普(Arnav Kapur)表示:「我們的想法是,我們是否能擁有一個更內在的運算平台,用某種方式結合人類和機器,並感覺像是我們自我意識的內部擴展。」

卡普的論文指導教授派蒂‧梅斯(Pattie Maes)博士認為,手機和數位裝置在日常使用上容易令人分心。如果你想查看相關資訊,必須先找到手機,輸入密碼,打開應用程式,再輸入一些關鍵字搜尋。這些動作都會讓注意力從當前的環境轉移到手機上。

因此,梅斯博士和學生長期以來一直嘗試尋找新的體驗類型,希望能建立一套智能增強(intelligence augmentation)裝置,讓人們使用與過去不同的方法,但仍然可以從原有的手機和數位裝置得到相關資訊及服務。

實驗方法

研究團隊發現,默讀(subvocalization)在人機介面上有很大的發展性。研究人員首先必須確定臉部哪些位置有最可靠的神經肌肉訊號來源。因此他們進行了一些實驗,要求受測者將同一系列的單詞默讀 4 次,受測者臉部不同位置的 16 個電極會接收每次默讀的訊號。

研究人員撰寫程式來分析收集到的資料,發現 7 個特定位置電極的訊號始終能區別默讀的單詞。因此設計出一種可穿戴裝置的原型,這個原型像電話耳機一樣纏繞在脖子後方,並具有觸手狀的彎曲附屬物,在嘴巴兩側並沿著下巴的 7 個位置接觸臉部。

選定了電極位置之後,研究人員用兩種方法收集資料,以進行一些有限詞彙(每個詞彙大約 20 個單詞)的計算工作。一種是數學運算,其中用戶會默念加法或減法問題。另一種是西洋棋,用戶使用標準的象棋編號系統,以默念方式報告旗子的移動。然後,使用深度學習網路分析特定肌肉神經訊號和及特定單詞之間的相關性。

[related-post url=”https://tomorrowsci.com/technology/mit-%E7%A0%94%E7%99%BC%E4%BB%A5-%E7%84%A1%E7%B7%9A%E9%9B%BB%E6%B3%A2-%E5%81%B5%E6%B8%AC-%E4%BA%BA%E9%A1%9E-%E6%83%85%E6%84%9F/”]

準確率約為 92%

研究人員利用可穿戴裝置原型進行了一項可用性測試,在這項研究中,該系統的平均轉錄準確率約為 92%。

但是卡普認為,系統性能應該能隨著更多的訓練資料而獲得改善,這些訓練資料能在日常使用中收集。雖然他沒有統計數據,不過卡普預估,經過完整訓練的系統,其準確性會高於可用性測試的結果。

研究人員目前正在收集大量更精細的對話資料,希望能用更廣泛的詞彙量來訓練系統。卡普表示:「我們正在收集資料,結果看起來不錯,我認為我們有一天會實現更全面的人機對話。」

應用前景

曾負責 Google 眼鏡研發的喬治亞理工大學(Georgia Institute of Technology)教授塔德·斯塔納(Thad Starner)博士認為,這種裝置其實有其他真正有潛力的用途。例如,在機場停機坪指揮飛機的地勤人員,他們戴著耳罩,身旁都是飛機噪音,在這種環境下,通常無法像平常一樣用聲音進行良好的溝通。還有航空母艦的飛行甲板,甚至發電廠或印刷廠這些有大量機器設備的地方。而且在這些高噪音環境中工作的人,通常都穿著一些防護裝備。

此外,這種裝置也能幫助無法正常發聲的身障人士,例如口腔癌病患因為切除了部分頜骨而無法說話,如果使用這種裝置,就能使用語音合成器進行口語表達。

 

參考資料:

  1. Larry Hardesty (April 2018). Computer system transcribes words users “speak silently”, MIT News