OpenAI 推出 GPTBot 網路爬蟲以及阻止它的說明
OpenAI 推出網路爬蟲來改進其模型人工智慧像 GPT-4。受洗GPT機器人,系統瀏覽網路來訓練和提高其人工智慧的能力。根據 OpenAI 的一篇部落格文章,使用 GPTBot 有可能改進現有人工智慧模型的準確性和安全。
「使用 GPTBot 使用者代理程式檢索的網頁有可能用於改進未來的模型,並進行過濾以刪除需要付費存取、已知會收集個人識別資訊 (PII) 或包含違反我們政策的文本的來源,」我們可以在帖子中閱讀。
但是,網站可以選擇限制對此機器人的訪問,並阻止 GPTBot 部分或完全訪問其網站。 OpenAI 解釋說,網站管理員可以透過封鎖其 IP 位址或 robots.txt 檔案來禁止爬蟲。
OpenAi 已經因其收集資料的方式以及侵犯版權和安全漏洞而引起爭議。 6月,該平台甚至被起訴“盜竊”個人資料旨在引領聊天GPT。
最近實施了選擇退出這些改進計劃的功能,包括允許您停用對話歷史記錄,讓使用者更好地控制其個人資料。
ChatGPT 3.5 和 4 最近接受了可追溯至 2021 年 9 月的線上資料和文字的訓練。目前無法從此資料集中刪除內容。
根據開放人工智慧,您可以透過在網站的 Robots.txt 檔案中新增幾行來停用 GPTBot。該檔案已被精確地用於向網路爬蟲發出指令,以指示它們可以或不能存取什麼。
您可以自訂此類機器人可以使用的內容,允許某些頁面並禁止其他頁面。
使用者代理:GPTBot
允許:/my-folder-1/
禁止:/mon-dossier-2/
允許 /my-folder-1/ 中的內容收集並禁止 /my-folder-2/ 中的內容收集。使用 Disallow://,您可以禁止完全訪問您的網站。