IT之家 7 月 17 日消息,非營(yíng)利性新聞工作室 ProofNews 昨日(7 月 16 日)發(fā)布博文,表示包括蘋果、英偉達(dá)、Salesforce 和 Anthrophic 在內(nèi)的大型科技公司,在訓(xùn)練其 AI 模型時(shí)均使用了來自 YouTube 的視頻資源。
報(bào)道稱這些科技公司在訓(xùn)練其 AI 模型過程中,使用了名為 YouTube Subtitles 的數(shù)據(jù)集,大小為 5.7GB(4.89 億個(gè)單詞)。
該數(shù)據(jù)集由 EleutherAI 創(chuàng)建,最早發(fā)布于 2020 年,涉及超過 48000 個(gè)頻道的 173536 個(gè) YouTube 視頻字幕內(nèi)容,其中還包含 12000 多個(gè)平臺(tái)已刪除視頻的字幕內(nèi)容。
YouTube Subtitles 數(shù)據(jù)集主要采集熱門 YouTube 頻道的資源,IT之家附上相關(guān)信息如下:
MrBeast(2.89 億訂閱者,其中有 2 段視頻用于訓(xùn)練)
Marques Brownlee(1900 萬訂閱者,有 7 段視頻)
Jacksepticeye(近 3100 萬訂閱者,有 377 段視頻)
PewDiePie(1.11 億訂閱者,有 337 段視頻)
YouTube Subtitles 數(shù)據(jù)集隸屬于一個(gè)名為“The Pile”的數(shù)據(jù)集,其中包括其他幾個(gè)訓(xùn)練數(shù)據(jù)集。大多數(shù)“The Pile”數(shù)據(jù)集都對(duì)任何有足夠空間和計(jì)算能力的人開放。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。