該資料庫包含來自該平台最受歡迎的創作者的 YouTube 影片的轉錄。
科技巨頭人工智慧培訓中的可疑做法
Proof News 最近的一項調查顯示,包括 Apple 和 NVIDIA 在內的一些世界上最大的科技公司已經培訓了他們的員工人工智慧(IA) 他們無權使用的資料。他們依賴的資料集由超過 173,000 個 YouTube 影片的轉錄組成,這些影片未經授權而檢索。
未經同意建立的資料集
這些轉錄來自超過 48,000 個 YouTube 頻道,包括 Marques Brownlee 和 MrBeast 等主要內容創作者,也包括《紐約時報》、BBC 和 ABC News 等主要新聞出版商。我們也注意到 Engadget 的影片存在字幕。
Marques Brownlee 在 X 平台上就此主題聲明:「蘋果透過幾家公司獲得了人工智慧的數據。其中一個從 YouTube 影片中提取了大量數據/轉錄,包括我的影片。 »對他來說,這個問題今後還會不斷出現。
蘋果從多家公司取得了人工智慧數據
其中一個從 YouTube 影片(包括我的影片)中抓取了大量資料/文字記錄
蘋果在技術上避免了這裡的“錯誤”,因為他們不是抄襲的人
但這將是一個長期發展的問題https://t.co/U93riaeSlY
— 馬克斯‧布朗利 (@MKBHD)2024 年 7 月 16 日
明顯缺乏透明度
大多數致力於人工智慧模型的公司對於用於訓練的資料來源並不透明。本月早些時候,藝術家和攝影師批評蘋果因為沒有透露用於訓練 Apple Intelligence 的數據的來源,Apple Intelligence 是他們專門用於內容生成的新人工智慧,計劃於今年在數百萬台蘋果設備上推出。
面對這些違法行為,亟待監管
YouTube 是全球最大的影片平台,代表著資料(轉錄、音訊、視訊和圖像)的金礦,對於熱衷於訓練人工智慧模型的公司尤其有吸引力。代表GoogleOpenAI 表示,將 YouTube 的資料用於此目的將違反該平台的服務條款。
這些揭露引發了有關資料收集實踐的合法性和道德的關鍵問題。這個問題值得關注,科技公司有責任採取措施確保資料的道德使用。