涉17萬個視頻!英偉達等巨頭被曝違規使用YouTube數據訓練模型
- 產品中心
- 2024-07-17
- 8
【新澳门内部资料精准大全】 |
【2024澳门天天开好彩大全】 |
【澳门一肖一码100准免费资料】 |
【2024澳门特马今晚开奖】 |
【2O24澳彩管家婆资料传真】 |
【2024正版资料大全免费】 |
【管家婆一肖-一码-一中一特】 |
【澳门一肖一码必中一肖一码】 |
【2024澳门正版资料免费大全】 |
【澳门王中王100%的资料】 |
【2024澳门天天六开彩免费资料】 |
【澳门今晚必中一肖一码准确9995】 |
【澳门资料大全正版资料2024年免费】 |
【澳门一码一肖一特一中2024】 |
【澳门管家婆一肖一码100精准】 |
【494949澳门今晚开什么】 |
【2024一肖一码100精准大全】 |
【2024澳门今天晚上开什么生肖】 |
【新澳门精准资料大全管家婆料】 |
科技巨頭被曝使用未經授權的YouTube內容訓練AI(人工智能)模型。
當地時間7月16日,據外媒報道,包括蘋果、英偉達、Salesforce和Anthrophic在內的一些大型科技公司,被曝在訓練AI模型時使用了來自谷歌旗下視頻網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集,其中包含從YouTube上抓取的大量視頻字幕文本,違反了YouTube禁止從平臺上未經許可抓取內容的規定。
報道指出,這些科技公司在訓練AI模型時都使用了一個名為“YouTube Subtitles(YouTube字幕)”的數據集,大小為5.7GB,包含4.89億個單詞,來自Youtube上超過4.8萬個頻道中的17.35萬個視頻。該數據集由視頻字幕的純文本組成,包括視頻博主上傳的部分和Youtube自動轉錄的文本,除了英語外,通常還附帶日語、德語和阿拉伯語等語言的翻譯。
非營利性組織EleutherAI是爭議數據集的創作者,公司尚未對此事作出回應。根據官網介紹,EleutherAI的目標是“降低AI開發的門檻,通過訓練和發布模型,讓大家接觸到尖端的AI技術”。此前,EleutherAI發布了名為“Pile”的數據匯編,其中的大部分數據集都是對公眾開放的,包括YouTube Subtitles。
資料顯示,在蘋果于今年4月發布端側小模型OpenELM模型的幾周之前,公司就使用了Pile進行訓練。不過,值得注意的是,蘋果自己并沒有下載這些數據。因此,從技術層面來說,是EleutherAI違反了YouTube的使用條款。
AI初創公司Anthropic的一位發言人證實,Pile數據集已被用于訓練公司的生成式AI助手Claude,而YouTube的相關條款僅涉及“直接使用其平臺”,建議與Pile的原作者討論任何違反YouTube服務條款的行為。蘋果、英偉達、Salesforce等其他公司尚未對此事作出回應。
此次事件影響到的創作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主,以及《紐約時報》、英國廣播公司(BBC)和美國ABC News等大型新聞出版商。另外,數據集中的一些材料宣傳了“地平說”等陰謀論,甚至還包含了已被刪除的視頻的內容。現在,Pile已從官方下載網站上下架,但仍可通過文件共享服務訪問。
對此,知名科技博主Marques Brownlee在X(原推特)平臺上表示:“蘋果從幾家公司獲取了他們AI所需的數據,其中一家從YouTube視頻中抓取了大量數據/轉錄文本,包括我的視頻。從技術上來說蘋果沒有‘犯錯’,他們沒有主動抓取數據。但這將是一個長期存在的問題。”
雖然蘋果和其他公司或許是使用了公開的數據集,并沒有違規行為,但此次事件讓人們又一次關注到AI訓練背后的數據問題。今年年初,YouTube的母公司谷歌被曝利用該平臺的視頻來訓練旗下模型,谷歌當時回應稱,這種行為沒有違反平臺與創作者的協議。
今年3月,OpenAI首席技術官米拉·穆拉蒂(Mira?Murati)在接受采訪時還曾對文生視頻模型Sora的訓練數據來源含糊其詞。4月,YouTube首席執行官尼爾·莫漢(Neal Mohan)在采訪中表示,他并沒有直接證據能夠證明OpenAI確實使用了YouTube的視頻來完善其文生視頻AI工具Sora,如果真的使用了,那就“明顯違反”了YouTube平臺的使用條款。
本文由夏紫茉于2024-07-17發表在山東天一水務工程有限公司,如有疑問,請聯系我們。
本文鏈接://realrule.com.cn/post/1499.html
發表評論