語音識別打字輸入速度
科技前瞻

研究顯示:語音輸入首次超越人類打字速度

電腦已經在國際象棋及圍棋中戰勝人類,想不到現在又新添一項戰績,成功在手機打字速度上超越我們。

這個由史丹福大學、華盛頓大學及百度聯手設計的實驗,分別以英語及國語進行。在實驗中,研究人員使用了百度的「新一代深度語音識別系統」(Deep Speech 2)與 32 名年齡介乎 19 至 32 歲的年輕人進行比較,讓他們分別使用語音識別及手機鍵盤在 iPhone 上輸入一些日常生活常用的句子。

研究結果發現,語音識別系統的準確度不單只遠超人類,輸入速度更加比手機打字快三倍,在各方面上完全戰勝測試對象。

百度首席科學家吳恩達說:「我們不應該將此視為人類的失敗,因為在人類的進化過程中,從來都不是用鍵盤交流的;面對面地對話一直也是一個更自然的交流方式。」

出乎意料之外

史丹福電腦科學家占士·藍迪(James Landay)則表示實驗結果出乎意料之外:「如果大家都知道語音識別真的比打字更快,我相信大家一定會紛紛轉用語音輸入。」

那麼為何語音識別至今仍然擁有如此差劣的名聲?科學家推測可能是與用家的用法有關。比如大家又愛又恨的「迷糊」手機私人助理──蘋果 Siri,連回答基本問題都難以做到,導致用家將電腦查詢功能與語音識別的能力掛鉤,「錯怪好人」。

但本實驗的研究小組並非測試電腦的查詢能力,而只是將語音識別用於聽音打字,結果顯示英語的錯誤率比人類低 20.4%,國語更是低 63.4%。藍迪希望這些測試結果能令用家重新看待手機的語音功能,他表示:「大家可能在試用 Siri 時,不太滿意她的答案, 然後從此便沒想到用語音輸入來發短訊或是郵件,殊不知現在這功能的效率已相當的高。」

siri語音輸入速度
研究人員表示,蘋果的 Siri 可能是語音識別仍然不受大眾歡迎的原因之一(圖:Apple)

進步神速

語音識別的進步,主要有賴予兩項科技發展。上世紀 90 年代,語音識別的準確度仍然遠低於鍵盤輸入,尤其是在輸入俚語或當環境噪音較高時。但過去數年,隨著科技進步,就像智能手機的相機鏡頭,像素更高看得更清楚,手機內置的麥克風也能聽得更清楚,得到更準確的結果。

其二,是超級電腦開始使用「深度學習」(deep learning)高效地從數據中學習,充份地利用網上巨型公司,如 Google 及百度的語音數據進行訓練。百度透露,他們的語音數據庫擁有多達五年的數據,可以無休止播放至 2021 年。

目前無論在駕駛、獨自一人、甚至在日常生活中,手機的語音功能也遠比打字方便。百度的吳恩達亦認同這一點,他想像未來有一天,孫兒回家時會問他:「你年輕的時候,回家對著微波爐說話,它真的不理會你嗎?那真是沒禮貌。」

但藍迪則承認,在某些場合上,打字仍然擁有其優勝的地方:「比如在會議中,或是當你的另一半在睡覺的時候,打字仍然是較適合的選擇。」