牛津科學家讓人工智慧看電視學習讀唇，準確度比人類更高

牛津大學的科學家與 Google DeepMind 人工智慧部門合作，藉助 BBC 提供的新聞報道片段，成功讓人工智慧系統學會「讀唇」，即在沒有任何聲音的情況下，通過嘴唇的形狀及動作識別出背後的話語。雖然準確率只有 50%，但考慮到專業的人類唇讀者 12% 的準確率，人工智慧顯然又一次勝過了人類。

為了協助開發這套系統，BBC 提供了大量新聞片段和對應的字幕。然後，研究者在一個人工神經網路（Artificial neural network）中整合了最先進的圖像和語音識別技術，利用新聞片段，讓系統開始學習讀唇。

語境分析

科學家稱這個人工智慧系統為「觀察－專注－拼讀」（Watch, Attend and Spell）。步驟看起來似乎很簡單，然而讓人工智慧學會唇讀並非易事。牛津大學工程系博士研究生 Joon Son Chung 解釋，英文中有些發音，如 mat，bat，pat，唇形極其相似。這種情況下，無論是專業的唇讀者，還是人工智慧，借助的都是上下文語境。

實際上，人工智慧所學習的，是分析同時出現的訊息，即唇形、詞語以及後文緊接著出現的詞語。由於系統學習的是新聞語言，現在已可以輕鬆地識別出「Prime」後面總是接「Minister」（首相），「European」後面接「Union」（歐盟）。但對於新聞主播不常使用的辭彙，系統識別起來仍然有一定的難度。

[related-post url=”https://tomorrowsci.com/technology/%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7%E6%BA%96%E7%A2%BA%E9%A0%90%E6%B8%AC%E6%B3%95%E5%BA%AD%E5%88%A4%E6%B1%BA%E7%B5%90%E6%9E%9C/”]

優勢明顯，但仍需較大改進

如前所述，雖然系統目前準確率高於人類，但仍然擁有其缺點，其中之一便是準確率。科學家表示，增加系統的準確率將會是他們未來最主要的研究目標。

此外，系統目前只能對錄製好的完整句子進行唇讀，無法實時運行。Joon Son Chung 表示，他們希望讓系統學會即時唇讀，不過，這個挑戰的難度其實比提高系統準確率較低。

[related-post url=”https://tomorrowsci.com/technology/%E9%A6%AC%E6%96%AF%E5%85%8B%E8%AD%A6%E5%91%8A-%E9%AB%98%E7%B4%9A%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7-%E5%8F%AF%E4%BB%A5%E7%99%B1%E7%98%93%E7%B6%B2%E9%9A%9B%E7%B6%B2%E8%B7%AF/”]

幫助失聰人士

雖然離實際應用還需進一步的改進，但失聰人士援助團體 Action on Hearing Loss 已表現出極大的關注。技術研究經理 Jesal Vishnuram 稱，人工智慧唇讀技術可以提高語音到文本的轉化速度和準確率，幫助聽障人士觀看電視，或者在嘈雜環境中聽清聲音。

牛津大學和慈善組織一致認為，人工智慧唇讀技術不會取代人類唇讀者。但在很多情況下，它將會成為輔助工具，提高人類唇讀者或語音識別技術的效率和準確性。

牛津科學家讓人工智慧看電視學習讀唇，準確度比人類更高

語境分析

優勢明顯，但仍需較大改進

幫助失聰人士

Lucy 太空船即將接近第二顆小行星，為木星特洛伊任務演練

鐵粉效能大勝活性碳　破解「永久化學物」PFOS 水中殘留難題

小丑海葵魚因應熱浪壓力會縮小體型，助其存活率大增

圖馬特幼狼解密：凍土發現1.4萬年前狼崽，非家犬起源

19 世紀達荷美王國戰劍揭秘：中子技術鍛造西非工藝美

語境分析

優勢明顯，但仍需較大改進

幫助失聰人士

你也可能喜歡