OpenAI 宣布可以從 15 秒的音訊中克隆出聲音

該技術是該公司現有文字轉語音 API 的擴展。

太;博士

親愛的讀者，音頻的未來正在形成。公司開放人工智慧最近宣布語音引擎小規模預覽，一款革命性的工具，能夠從短短 15 秒的音訊樣本中複製任何聲音。據該公司稱，這項技術提供「極其真實且充滿情感的自然語音」。

“音頻世界的另一個維度”，正如這項技術的推動者所提出的。 OpenAI 正在考慮幾個應用例如：

布朗大學的一個試點計畫已經展示了這項技術的潛力，可以幫助患有言語障礙的患者使用語音引擎生成的語音克隆進行溝通。

然而，擔憂依然存在。惡意行為者濫用該技術的風險，特別是在以下領域：深度造假，重如達摩克利斯之劍。 OpenAI 意識到這些問題，並強調在大規模部署之前需要有效且負責任地解決隱私問題。

OpenAI 聲稱與合作夥伴密切合作美國國際上，來自政府、媒體、娛樂、教育和民間社會等各部門，以盡量減少風險。透明度措施已經制定：該技術的任何用戶都必須向受眾澄清聲音是由人工智慧產生的。安全措施也已到位，例如用於識別音訊來源的浮水印和主動監控系統使用情況。

目前，OpenAI 對發布日期保持謹慎語音引擎及其價格。然而，TechCrunch 發現的資訊表明，其成本可能低於 ElevenLabs 等競爭對手。只要有意識地、負責任地使用這項技術，它的部署就可能引發一場音頻革命。

回顧

了解更多