OpenAI 推出 GPTBot 網路爬蟲以及阻止它的說明

OpenAI 推出網路爬蟲來改進其模型人工智慧像 GPT-4。受洗GPT機器人，系統瀏覽網路來訓練和提高其人工智慧的能力。根據 OpenAI 的一篇部落格文章，使用 GPTBot 有可能改進現有人工智慧模型的準確性和安全。

「使用 GPTBot 使用者代理程式檢索的網頁有可能用於改進未來的模型，並進行過濾以刪除需要付費存取、已知會收集個人識別資訊 (PII) 或包含違反我們政策的文本的來源，」我們可以在帖子中閱讀。

但是，網站可以選擇限制對此機器人的訪問，並阻止 GPTBot 部分或完全訪問其網站。 OpenAI 解釋說，網站管理員可以透過封鎖其 IP 位址或 robots.txt 檔案來禁止爬蟲。

OpenAi 已經因其收集資料的方式以及侵犯版權和安全漏洞而引起爭議。 6月，該平台甚至被起訴“盜竊”個人資料旨在引領聊天GPT。

最近實施了選擇退出這些改進計劃的功能，包括允許您停用對話歷史記錄，讓使用者更好地控制其個人資料。

ChatGPT 3.5 和 4 最近接受了可追溯至 2021 年 9 月的線上資料和文字的訓練。目前無法從此資料集中刪除內容。

根據開放人工智慧，您可以透過在網站的 Robots.txt 檔案中新增幾行來停用 GPTBot。該檔案已被精確地用於向網路爬蟲發出指令，以指示它們可以或不能存取什麼。

您可以自訂此類機器人可以使用的內容，允許某些頁面並禁止其他頁面。

使用者代理：GPTBot
允許：/my-folder-1/
禁止：/mon-dossier-2/

允許 /my-folder-1/ 中的內容收集並禁止 /my-folder-2/ 中的內容收集。使用 Disallow://，您可以禁止完全訪問您的網站。

回顧

了解更多