DeepSeek 的最新模型在各個層面上都取得了成功,除了記住自己的名字。
太;博士
- DeepSeek 將自己標識為 ChatGPT。
- 它對 GPT-4 產生的資料進行的訓練可以解釋這種異常現象。
- 這對未來提出了倫理和技術問題人工智慧。
一個強大但令人困惑的模型
新推出的 DeepSeek V3 憑藉其在程式設計和寫作等任務上的效率,在流行的基準測試中超越了幾個競爭對手。然而這個人工智慧模型有一個不尋常的怪癖:它聲稱聊天GPT,著名的聊天機器人開放人工智慧。當受到質疑時,DeepSeek V3 甚至聲稱是GPT-4於 2023 年發布。這種混亂並非微不足道,並且引發了有關用於訓練模型的訓練和資料來源的問題。
對有爭議的資料進行訓練
DeepSeek 尚未透露其模型訓練資料的確切來源,但有跡象表明 GPT-4 透過 ChatGPT 產生的文字可能是其中的一部分。透過整合這些數據,DeepSeek V3 似乎已經記住了某些 GPT-4 輸出,並以幾乎相同的方式再現它們。這種做法,無論是有意或無意,都會造成重大的品質問題。正如國王學院人工智慧研究員 Mike Cook 所解釋的那樣,這就像“複印一份複印件”,會降低答案的可靠性和原創性。
道德和法律問題
除了技術影響之外,使用 ChatGPT 產生的資料訓練 DeepSeek V3 可能會違反 OpenAI 的服務條款。這些明確禁止基於其產出開發競爭模型。這種情況凸顯了業界中一個日益嚴重的問題:對其他人工智慧產品的機會主義使用。雖然這種方法降低了成本並加快了開發速度,但它可能會損害創新以及該部門的完整性,如所強調的薩姆·奧特曼OpenAI 執行長對這些做法進行了隱含的批評。
未來會被生成的人工智慧污染嗎?
DeepSeek V3 的案例說明了一個令人擔憂的趨勢:人工智慧產生的內容在網路上無所不在。隨著自動化網站的出現,機器人數量激增社群網路,並且估計到 2026 年 90% 的線上內容將由人工智慧生成,但訓練資料集正變得越來越污染。這種污染使可靠模型的創建變得複雜,並放大了先前人工智慧的偏差和錯誤。如果 DeepSeek 確實吸收了 GPT-4 的輸出,那麼模型不僅有加劇現有偏見的風險,而且還會讓人質疑其自身的身份。