(圖:Oracle Big Data Blog)

MIT 日前將其開放給開發人員使用來訓練人工智慧的 8000 萬張微小圖像(80 Million Tiny Images)資料庫永久下架。原因是有研究人員發現,其資料庫內對許多女性、黑人與亞洲人標記上了帶有歧視、不良的用語。 MIT 也已針對此疏忽進行道歉。

8000 萬張微小圖像

有許多網站、應用程式都仰賴神經網路(nerual networks)來辨識照片中的人體、物體,而為達成此目標,開發人員通常需使用大量、標籤過後的圖庫以監督式學習(supervised learning)來訓練其開發的神經網路模型。而 MIT 的 8000 萬張微小圖像便是為此開放提供給開發人員使用。其在 2008 年開放,受限於當時的電腦視覺演算法的限制,每張圖像的大小僅有 32×32 個像素。

由於目前已有其他更佳的圖庫為此用途進行模型的訓練, 8000 萬張微小圖像現在通常被用於衡量電腦視覺演算法的能力。訓練用的圖庫則使用更符合現代用途的 ImageNet。

歧視標籤

矽谷新創公司,UnifyID 的首席科學家,維奈·普拉布(Vinay Prabhu)與在都柏林大學(University College Dublin)就讀博士學位的阿比巴·伯漢(Abeba Birhane)在仔細檢驗了 8000 萬張微小圖像資料庫後,發現了內部有數千張影像對女性、黑人、亞洲人標記了歧視性用語。

在得知此消息後,負責該資料庫的 MIT 電腦科學與人工智慧研究室(Computer Science and Artificial Intelligence Lab,簡稱 CSAIL)表示由於該資料庫的影像過小,無法經由人工方式進行篩檢,因此將對其永久下架。

問題

該研究室的教授,安東尼奧·托爾巴(Antonio Torralba)在與 The Register 的訪談中解釋了這些標籤是如何進到資料庫的:「該資料庫內含有從 WordNet 中直接取得的 53,464 種不同的名詞。而我們藉由自動化程式,以這些名詞在網路上進行搜尋,配合當時所能取得的篩選工具過濾出各種有關、可以下載的影像」。

WordNet 原先是由普林斯頓大學認知科學實驗室(Princeton’s Cognitive Science Laboratory)的喬治·阿米蒂亞·米勒(George Armitage Miller)所創建,該資料庫將對各種名詞以其相關性進行相連,是能以關聯性搜尋的文字資料庫。伯漢表示:「當你需要建立一個龐大的資料庫時,你需要建立某種架構。而這就是 WordNet 能派上用場的地方,其能夠協助電腦視覺的研究人員分類、標籤其影像」。然而 WordNet 內含有許多歧視性的用語,這對於一個文字資料庫而言並不是什麼問題,但將其配合影像、人工智慧訓練使用時,就造成了此次 8000 萬張微小圖像的問題。

不僅是 8000 萬張微小圖像,資料庫中帶有歧視性標籤的問題也同樣出現在 ImageNet 中。但由於比例較低,且較容易發現問題影像進行過濾,因此影響並不大。不過普拉布與伯漢則表示,這些標籤仍有可能會影響到許多上市、開放給使用者使用的產品,甚至可能會傷害到部分族群的權益,因此學界對此應該更加警慎、採取更爲小心的研發過程。

圖片來源:Oracle Big Data Blog

參考資料:

  1. Quach, K. (2020, July 01). MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs. Retrieved July 07, 2020. TheRegister

更多科學與科技新聞都可以直接上 明日科學網站 www.tomorrowsci.com

You May Also Like

中國量子計算機「九章」 問世,速度比Google的量子電腦還快100億倍

Google的Sycamore量子電腦獨佔鰲頭 中國科技大學的一組研究人員在最近宣佈了他們已經超越原…

Google 工程總監:2030 年後奈米機器人將會遍佈我們體內

Google 的工程總監雷·科茲維爾(Ray Kurzweil)的夢想是能夠長生不老、永遠活下去,而…

什麼是合成生物學? — 當科學家遇上工程師

「合成生物學」是一個跨學科研究,當中除了牽涉到分子生物學、生物科技,更會使用工程學的知識,尤其是電機…

2021年全球將面臨嚴重的飢荒,將有高達36個國家陷入危機

2021年將面臨嚴重的飢荒 聯合國世界糧食計劃署(WFP)負責人近日向世界各國傳達了一個可怕的消息:…

Google終於推出屬於自家的TV裝置 – 「Sabrina」

Google新發布的「Sabrina」看起來像是Android電視和Chromecast的合併,這也…

科學家找到一種可儲存太陽能達數個月甚至數年的新材料

若我們要在以再生能源來驅動這個星球的方面上表現得更好,我們需要找到更有效率地儲存該些能量的方式,直到…