
해적판 데이터세트로 'xGen' 훈련…증거 삭제·은폐 의혹까지
AI기업vs언론·작가 저작권 분쟁 전방위 확산…美서만 50여건
세일즈포스 타워 ⓒ AFP=뉴스1
(서울=뉴스1) 김민석 기자 = 세일즈포스가 해적판 전자책으로 자체 인공지능(AI) xGen을 훈련했다는 의혹으로 집단소송에 직면했다.
마크 베니오프 세일즈포스 CEO의 지난해 발언(AI 기업들이 훈련 데이터를 훔쳤다)이 재조명되며 '내로남불'(내가 하면 로맨스 남이 하면 불륜) 논란에도 휩싸였다.
21일 IT 업계에 따르면 미국의 소설가 몰리 탄저·제니퍼 길모어는 15일(현지시간) 캘리포니아 북부지방법원에 세일즈포스를 상대로 저작권 침해 소송을 제기했다. 세일즈포스를 겨냥한 첫 AI 저작권 소송이다.
원고 측은 소장에서 세일즈포스가 약 20만 권(19만 6640권)의 전자책으로 구성된 'Books3 데이터세트'을 언어모델 xGen 훈련에 사용했다고 주장했다.
Books3는 비블리오틱이라는 토렌트 사이트에서 수집한 해적판 컬렉션을 기반으로 만들어졌다. 존 그리샴·스티븐 킹 등 유명 작가 작품도 포함돼 있다. 메타 경우 라마(LLaMA) 모델 훈련에 해당 데이터세트를 훈련에 활용했다고 인정했다.
세일즈포스가 증거를 은폐하려 한 정황도 담겼다. 세일즈포스는 2023년 6월 xGen 출시 당시 훈련 데이터 출처로 'RedPajama-Books'를 명시했다. 한 엔지니어는 깃허브에 RedPajama와 'The Pile 데이터세트' 링크를 공유했다.
하지만 같은 해 9월과 12월 세일즈포스는 해당 문구들을 삭제하고 "공개적으로 이용 가능한 자료에서 추출한 자연어 데이터"라는 표현으로 대체했다.
베니오프 CEO의 발언으로 이중잣대 논란도 일고 있다. 베니오프는 2024년 1월 블룸버그와 인터뷰에서 "AI 기업들이 훈련 데이터를 훔치고 있다"며 "콘텐츠 제작자 대상 공정한 보상은 매우 쉬운 일"이라고 말했다.
마크 베니오프 세일즈포스 CEO. ⓒ AFP=뉴스1
세일즈포스 외에도 주요 AI 기업과 언론·미디어·출판사·작가단체 간 저작권 분쟁은 확산하고 있다.
미국에서만 AI 관련 저작권 소송은 50여 건에 달하고 최근 일본·유럽연합(EU) 등 전 세계로 확산하고 있다. 뉴욕타임스의 오픈AI·MS 소송, 뉴스코프·닛케이·아사히신문 등의 퍼플렉시티 소송, 레딧의 앤트로픽 소송 등이 대표적이다.
메타도 미국·유럽에서 다수의 저작권 소송에 걸려 있다. 올해 3월엔 프랑스 출판협회·작가단체가 메타를 상대로 저작권 침해 소송을 제기했다.
미국 업계에선 거대 미디어그룹이 특정 기업과 파트너십 협약을 맺고 협력 기업의 경쟁 스타트업에 소송을 거는 전략적 움직임도 나타나고 있다.
앤트로픽 경우 올해 9월 작가 단체와 15억 달러(약 2조 원) 규모 배상에 합의했다. 앤트로픽은 약 50만 권의 책에 권당 약 3000달러(약 400만 원)씩 지급하고 불법 다운로드 데이터세트를 모두 삭제하기로 했다.
한국에서도 저작권 분쟁이 본격화하고 있다. 한국방송협회(KBS·MBC·SBS 등 지상파 3사)는 올해 1월 네이버를 상대로 저작권 침해 소송을 제기했다. 방송사들은 네이버가 하이퍼클로바X를 훈련시키는 데 뉴스 콘텐츠를 무단으로 사용했다며 각사당 2억 원씩 총 6억 원의 손해배상을 청구했다.
한국신문협회도 4월 공정거래위원회에 네이버를 신고했다. 신문협회는 "네이버의 행태는 저작권 침해일 뿐 아니라 언론사가 뉴스 콘텐츠를 기반으로 영위하는 사업 활동을 심각하게 침해해 공정거래법상 시장지배적 지위를 남용한 사업 활동 방해에 해당한다"고 했다.
AI기업vs언론·작가 저작권 분쟁 전방위 확산…美서만 50여건
(서울=뉴스1) 김민석 기자 = 세일즈포스가 해적판 전자책으로 자체 인공지능(AI) xGen을 훈련했다는 의혹으로 집단소송에 직면했다.
마크 베니오프 세일즈포스 CEO의 지난해 발언(AI 기업들이 훈련 데이터를 훔쳤다)이 재조명되며 '내로남불'(내가 하면 로맨스 남이 하면 불륜) 논란에도 휩싸였다.
21일 IT 업계에 따르면 미국의 소설가 몰리 탄저·제니퍼 길모어는 15일(현지시간) 캘리포니아 북부지방법원에 세일즈포스를 상대로 저작권 침해 소송을 제기했다. 세일즈포스를 겨냥한 첫 AI 저작권 소송이다.
원고 측은 소장에서 세일즈포스가 약 20만 권(19만 6640권)의 전자책으로 구성된 'Books3 데이터세트'을 언어모델 xGen 훈련에 사용했다고 주장했다.
Books3는 비블리오틱이라는 토렌트 사이트에서 수집한 해적판 컬렉션을 기반으로 만들어졌다. 존 그리샴·스티븐 킹 등 유명 작가 작품도 포함돼 있다. 메타 경우 라마(LLaMA) 모델 훈련에 해당 데이터세트를 훈련에 활용했다고 인정했다.
세일즈포스가 증거를 은폐하려 한 정황도 담겼다. 세일즈포스는 2023년 6월 xGen 출시 당시 훈련 데이터 출처로 'RedPajama-Books'를 명시했다. 한 엔지니어는 깃허브에 RedPajama와 'The Pile 데이터세트' 링크를 공유했다.
하지만 같은 해 9월과 12월 세일즈포스는 해당 문구들을 삭제하고 "공개적으로 이용 가능한 자료에서 추출한 자연어 데이터"라는 표현으로 대체했다.
베니오프 CEO의 발언으로 이중잣대 논란도 일고 있다. 베니오프는 2024년 1월 블룸버그와 인터뷰에서 "AI 기업들이 훈련 데이터를 훔치고 있다"며 "콘텐츠 제작자 대상 공정한 보상은 매우 쉬운 일"이라고 말했다.
세일즈포스 외에도 주요 AI 기업과 언론·미디어·출판사·작가단체 간 저작권 분쟁은 확산하고 있다.
미국에서만 AI 관련 저작권 소송은 50여 건에 달하고 최근 일본·유럽연합(EU) 등 전 세계로 확산하고 있다. 뉴욕타임스의 오픈AI·MS 소송, 뉴스코프·닛케이·아사히신문 등의 퍼플렉시티 소송, 레딧의 앤트로픽 소송 등이 대표적이다.
메타도 미국·유럽에서 다수의 저작권 소송에 걸려 있다. 올해 3월엔 프랑스 출판협회·작가단체가 메타를 상대로 저작권 침해 소송을 제기했다.
미국 업계에선 거대 미디어그룹이 특정 기업과 파트너십 협약을 맺고 협력 기업의 경쟁 스타트업에 소송을 거는 전략적 움직임도 나타나고 있다.
앤트로픽 경우 올해 9월 작가 단체와 15억 달러(약 2조 원) 규모 배상에 합의했다. 앤트로픽은 약 50만 권의 책에 권당 약 3000달러(약 400만 원)씩 지급하고 불법 다운로드 데이터세트를 모두 삭제하기로 했다.
한국에서도 저작권 분쟁이 본격화하고 있다. 한국방송협회(KBS·MBC·SBS 등 지상파 3사)는 올해 1월 네이버를 상대로 저작권 침해 소송을 제기했다. 방송사들은 네이버가 하이퍼클로바X를 훈련시키는 데 뉴스 콘텐츠를 무단으로 사용했다며 각사당 2억 원씩 총 6억 원의 손해배상을 청구했다.
한국신문협회도 4월 공정거래위원회에 네이버를 신고했다. 신문협회는 "네이버의 행태는 저작권 침해일 뿐 아니라 언론사가 뉴스 콘텐츠를 기반으로 영위하는 사업 활동을 심각하게 침해해 공정거래법상 시장지배적 지위를 남용한 사업 활동 방해에 해당한다"고 했다.
댓글목록
등록된 댓글이 없습니다.