當前位置：首頁 > 新聞資訊 > ai智能 > 計算機行業淺析AI大模型訓練數據來源與版權挑戰- AI訓練數據版權之爭,版權問題重視程度的提升

計算機行業淺析AI大模型訓練數據來源與版權挑戰- AI訓練數據版權之爭,版權問題重視程度的提升

來源：廣發證券編輯：創澤時間：2024/10/9 主題：其他 [加盟]

AI 大模型訓練數據來源廣泛。在算力可獲得性提升以及算法同質化趨勢下，訓練數據成為影響大模型性能的重要因素。區別于傳統 AI 模型，大語言模型通常使用公共文本數據集的混合體作為預訓練語料庫，而多模態大模型則需要大規模的圖片和音視頻等多模態數據。這些訓練數據的來源廣泛，包含公開渠道、企業自研、直接購買與合作交換等。

內容持有者對 AI廠商態度各異。部分內容持有者針對 AI 平臺提出了各種維權訴求，已有數十起版權訴訟正在進行中。同時，另一部分內容持有者則選擇了授權合作道路。版權糾紛實質上是商業利益之爭，內容持有者具體選擇訴訟還是合作取決于其商業模式、內容獨特性和行業結構等因素。作家和藝術家們普遍傾向于抵制 AI 公司并控訴其侵權行為，而新聞媒體在版權斗爭中則難以形成統一陣線。

確保訓練數據的合法來源對于 AIGC 發展非常關鍵。我們在去年的《從 Adobe 看 AIGC 如何重塑創意工具行業》報告中提到，訓練數據的版權問題是 AIGC 商業化落地的重要阻礙。因此，只有解決了這一問題，才能在確保合法的前提下，推動生成式 AI 的商業落地。

從 2023 年下半年開始，AI 數據版權訴訟開始進入白熱化階段，而內容合作則于 2024 年上半年加速，表明過去一年中版權問題已經成為 AI L域的焦點，并且相關法律問題正在被逐步揭示與嘗試解決。

2024 年有望成為 AI訓練數據版權之爭的關鍵年。關于 AI 訓練數據版權訴訟，國內外尚未達成判例，重點案例的判決將對未來行業發展產生重要意義，需持續關注。同時，越來越多的公司正在明確其立場，顯示出行業整體對于訓練數據版權問題重視程度的提升。2024 年有望成為 AI 數據版權之爭的關鍵年，將會有更多訴訟、談判和合作展開，但未來授權合作或快于法律變革與監管介入。

附件：計算機行業淺析AI大模型訓練數據來源與版權挑戰- AI訓練數據版權之爭,版權問題重視程度的提升