DeepSeek，自認為是ChatGPT的中國AI

DeepSeek 的最新模型在各個層面上都取得了成功，除了記住自己的名字。

太;博士

DeepSeek 將自己標識為 ChatGPT。
它對 GPT-4 產生的資料進行的訓練可以解釋這種異常現象。
這對未來提出了倫理和技術問題人工智慧。

一個強大但令人困惑的模型

新推出的 DeepSeek V3 憑藉其在程式設計和寫作等任務上的效率，在流行的基準測試中超越了幾個競爭對手。然而這個人工智慧模型有一個不尋常的怪癖：它聲稱聊天GPT，著名的聊天機器人開放人工智慧。當受到質疑時，DeepSeek V3 甚至聲稱是GPT-4於 2023 年發布。這種混亂並非微不足道，並且引發了有關用於訓練模型的訓練和資料來源的問題。

對有爭議的資料進行訓練

DeepSeek 尚未透露其模型訓練資料的確切來源，但有跡象表明 GPT-4 透過 ChatGPT 產生的文字可能是其中的一部分。透過整合這些數據，DeepSeek V3 似乎已經記住了某些 GPT-4 輸出，並以幾乎相同的方式再現它們。這種做法，無論是有意或無意，都會造成重大的品質問題。正如國王學院人工智慧研究員 Mike Cook 所解釋的那樣，這就像“複印一份複印件”，會降低答案的可靠性和原創性。

道德和法律問題

除了技術影響之外，使用 ChatGPT 產生的資料訓練 DeepSeek V3 可能會違反 OpenAI 的服務條款。這些明確禁止基於其產出開發競爭模型。這種情況凸顯了業界中一個日益嚴重的問題：對其他人工智慧產品的機會主義使用。雖然這種方法降低了成本並加快了開發速度，但它可能會損害創新以及該部門的完整性，如所強調的薩姆·奧特曼OpenAI 執行長對這些做法進行了隱含的批評。

未來會被生成的人工智慧污染嗎？

DeepSeek V3 的案例說明了一個令人擔憂的趨勢：人工智慧產生的內容在網路上無所不在。隨著自動化網站的出現，機器人數量激增社群網路，並且估計到 2026 年 90% 的線上內容將由人工智慧生成，但訓練資料集正變得越來越污染。這種污染使可靠模型的創建變得複雜，並放大了先前人工智慧的偏差和錯誤。如果 DeepSeek 確實吸收了 GPT-4 的輸出，那麼模型不僅有加劇現有偏見的風險，而且還會讓人質疑其自身的身份。

回顧