(圖:Oracle Big Data Blog)

MIT 日前將其開放給開發人員使用來訓練人工智慧的 8000 萬張微小圖像(80 Million Tiny Images)資料庫永久下架。原因是有研究人員發現,其資料庫內對許多女性、黑人與亞洲人標記上了帶有歧視、不良的用語。 MIT 也已針對此疏忽進行道歉。

8000 萬張微小圖像

有許多網站、應用程式都仰賴神經網路(nerual networks)來辨識照片中的人體、物體,而為達成此目標,開發人員通常需使用大量、標籤過後的圖庫以監督式學習(supervised learning)來訓練其開發的神經網路模型。而 MIT 的 8000 萬張微小圖像便是為此開放提供給開發人員使用。其在 2008 年開放,受限於當時的電腦視覺演算法的限制,每張圖像的大小僅有 32×32 個像素。

由於目前已有其他更佳的圖庫為此用途進行模型的訓練, 8000 萬張微小圖像現在通常被用於衡量電腦視覺演算法的能力。訓練用的圖庫則使用更符合現代用途的 ImageNet。

歧視標籤

矽谷新創公司,UnifyID 的首席科學家,維奈·普拉布(Vinay Prabhu)與在都柏林大學(University College Dublin)就讀博士學位的阿比巴·伯漢(Abeba Birhane)在仔細檢驗了 8000 萬張微小圖像資料庫後,發現了內部有數千張影像對女性、黑人、亞洲人標記了歧視性用語。

在得知此消息後,負責該資料庫的 MIT 電腦科學與人工智慧研究室(Computer Science and Artificial Intelligence Lab,簡稱 CSAIL)表示由於該資料庫的影像過小,無法經由人工方式進行篩檢,因此將對其永久下架。

問題

該研究室的教授,安東尼奧·托爾巴(Antonio Torralba)在與 The Register 的訪談中解釋了這些標籤是如何進到資料庫的:「該資料庫內含有從 WordNet 中直接取得的 53,464 種不同的名詞。而我們藉由自動化程式,以這些名詞在網路上進行搜尋,配合當時所能取得的篩選工具過濾出各種有關、可以下載的影像」。

WordNet 原先是由普林斯頓大學認知科學實驗室(Princeton’s Cognitive Science Laboratory)的喬治·阿米蒂亞·米勒(George Armitage Miller)所創建,該資料庫將對各種名詞以其相關性進行相連,是能以關聯性搜尋的文字資料庫。伯漢表示:「當你需要建立一個龐大的資料庫時,你需要建立某種架構。而這就是 WordNet 能派上用場的地方,其能夠協助電腦視覺的研究人員分類、標籤其影像」。然而 WordNet 內含有許多歧視性的用語,這對於一個文字資料庫而言並不是什麼問題,但將其配合影像、人工智慧訓練使用時,就造成了此次 8000 萬張微小圖像的問題。

不僅是 8000 萬張微小圖像,資料庫中帶有歧視性標籤的問題也同樣出現在 ImageNet 中。但由於比例較低,且較容易發現問題影像進行過濾,因此影響並不大。不過普拉布與伯漢則表示,這些標籤仍有可能會影響到許多上市、開放給使用者使用的產品,甚至可能會傷害到部分族群的權益,因此學界對此應該更加警慎、採取更爲小心的研發過程。

圖片來源:Oracle Big Data Blog

參考資料:

  1. Quach, K. (2020, July 01). MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs. Retrieved July 07, 2020. TheRegister

更多科學與科技新聞都可以直接上 明日科學網站 www.tomorrowsci.com

您可能也喜歡

什麼是合成生物學? — 當科學家遇上工程師

「合成生物學」是一個跨學科研究,當中除了牽涉到分子生物學、生物科技,更會使用工程學的知識,尤其是電機…

一組科學團隊藉由彼此之間沒有物理性接觸的電子產生了量子遙傳現象

一組研究人員宣稱他們使用個別電子而達成了量子遙傳(quantum teleportation)。 量…

Google終於推出屬於自家的TV裝置 – 「Sabrina」

Google新發布的「Sabrina」看起來像是Android電視和Chromecast的合併,這也…

谷歌發明了可以在人類皮膚上觸控的科技

谷歌眼鏡的失敗 初代 Google Glass 於 2013&nbsp…

全球最快超級電腦分析出 77 種有望對抗武漢肺炎的藥品成份

武漢肺炎爆發至今,病例上升的速度不斷加快。使得科學家面臨前所未有的挑戰,必須在短時間內開發出能阻止病…

特斯拉CEO 伊隆·馬斯克(Elon Musk)說,現在是時候“與亞馬遜分道揚鑣了”

特斯拉(Tesla)執行長埃隆·馬斯克(Elon Musk)在推特(twitter) 上發了一些針對…