AI學習、訓練內容版權糾紛,成爲地球村的焦點。
文/金洪基
《紐約時報》以開放AI、MS起訴爲契機,科技公司主張公正使用著作物在韓國國內也有潛在的火線,專家們:生成AI訓練將成爲法律雷區。
以《紐約時報》起訴OpenAI和微軟的事件爲契機,AI著作權問題可能會成爲地球村的焦點。在這種情況下,科技企業部分人士主張公正性,稱著作權應該成爲公正使用的概念,為公共福利。但是,作者和媒體、出版界最近以強硬的態度守護版權,形成了鮮明的對比。 韓國國內的情況也是如此,三星、SK、KAKAO、NAVER、三家行動通訊公司等國內企業也正爭先恐後地開發生成AI。在此過程中,很有可能與創造學習數據中內容的媒體或出版社發生類似的紛爭。
科技公司vs出版社、媒體、作家紛爭不斷
實際上,在美國等海外,AI相關技術企業和出版、媒體、作家等他們之間的紛爭不斷。當初,科技企業爲了構建規模語言模式(LLM),需要使用多種內容,如果不使用有著作權的內容,AI學習和開發本身是不可能的。
OpenAI在被《紐約時報》起訴後,在去年12月向英國參議院通信及數字委員會提交的資料中主張:今天的著作權涉及從博客帖子到照片、論壇帖子、軟件代碼及政府文件等幾乎所有種類的人類表現,(沒有侵犯著作權)是不可能的。也就是說,如果不使用有著作權的資料,就無法進行主要AI模型的學習。
如果為了避免著作權,只有憑著100年前製作並公開的書籍或圖片,進行LLM的學習數據。因為考慮到現行著作權時限為70年。對此,OpenAI斷然說:僅憑這種古老的數據學習也許能成爲有趣的實驗,但無法提供滿足現代人要求的AI系統。
OpenAI利用沒問題的3種資料集開發出LLM
OpenAI表示,他們用3種主要教育數據組開發LLM。首先是在互聯網上可以公開使用的資訊和從第三方獲得許可的資訊,以及用戶或人類教練的資訊。關於生成AI訓練中使用的內容的爭議雖然不是初次的,但最近幾個月更加頻繁。特別是多數藝術家、作家、出版社等認為自己的內容被擅自用於LLM學習是問題所在,在沒有收取任何著作費的情況下,使用模仿原著者風格的內容,對此表示不滿和訴訟接連不斷。圍繞著用於AI模型學習的數據類型、製作相關數據的人以及由此產生的工具和結果的影響、紛爭日益增多。
微軟為捲入著作權訴訟的顧客提供辯護和支援
在這種情況下,微軟最近提出了應對這種趨勢的新顧客服務。例如,如果第三方以侵犯著作權為由起訴使用微軟Copilot或他們生成的結果物的顧客,將為其辯護。不僅會支援訴訟費用,如果敗訴,還會支持協議金額。但前提是其客戶要使用微軟產品內置的Guiderail和內容過濾器。先前,微軟在去年9月介紹這種顧客服務時,還在部落格貼文詳細提到了因生成AI引起的著作權糾紛內容。
微軟強調:本公司相信世界上需要有助於知識擴散、解決主要社會課題的AI。但是作者根據著作權法控制自己的權利,並對創作物獲得健康的收益也很重要。 它還表示,「然而,訓練人工智能模型並將其轉化為社會基礎設施所需的內容不應該由特定公司持有,從而阻礙競爭和創新。」這解釋了最近的氛圍:人工智能訓練數據是什麼以及誰擁有它變得更加重要。
AI業界主張 LLM用網絡數據是公正使用的對象
在這種情況下,部分AI相關企業主張:爲了LLM教育,使用網絡數據包含在公正使用的概念中。他們主張說,這是因爲正在利用這些數據(創造)轉換成新的數據 。但媒體已經意識到了數據對這些科技公司是多麼重要和珍貴。 因此,部分媒體考慮到科技公司,開始使用阻止網站滾動的工具。另外,與AI公司簽訂正式合約也變得很多。實際上,OpenAI在去年12月曾與Axel Springer簽訂了合約。《紐約時報》起訴OpenAI和微軟也是在之後的12月底。
《紐約時報》在訴狀中表示:生成AI工具是以複製和使用出版物有著作權的數百萬個新聞報道、調查、意見、評論及其他內容的LLM爲基礎構建的。《紐約時報》還主張:科技企業想免費乘坐投入巨額投資的《紐約時報》的新聞系統,並在沒有許可或代價的情況下製造替代產品,爲了LLM學習而使用內容不能被視為公正使用。
《紐約時報》的律師們指出:爲了製作代替《紐約時報》,搶奪讀者和聽眾的產品,毫無代價地使用《紐約時報》的內容,這絕不是(創造性)或變形性的,特別是被告人(OpenAI、MS)的生成AI模型的產出物非常相似,因此以這種目的複制《紐約時報》著作內容是不能成為公正使用。
OpenAI將與《紐約時報》達成適當的協議
對此,OpenAI表示,將在本週內與《紐約時報》方面達成協議,並創造新的機會。同時,OpenAI也表示:使用可公開使用的網絡資料訓練AI模型,是長期以來被廣泛認可的先例支持的公正使用。先前,《紐約時報》批評:GPT-4幾乎原封不動地複製普立茲獎獲獎系列等相當一部分新聞報導。
但是OpenAI表示,這樣的事例是AI學習過程中罕見的失敗,像這樣直接模仿的情況,特定內容在訓練數據中出現兩次以上時才發生。但《紐約時報》在此次訴訟中表示:正在努力追究數十億美元的法律、物理損失的責任。 對此,OpenAI等表示:這是毫無價值的訴訟,正在努力探索與《紐約時報》的建設性夥伴關係。此次事件不亞於生成AI中的內容,對先加入哪些訓練內容備受矚目的契機。另外,這也是為了應對現有的著作權,所謂的公正使用概念登場的事件。