
허니팟 테스트로 증거확보…"스크래퍼업체 데이터세탁 경제"
퍼플렉 "데이터 가격협상 우위노린 본보기 소송, 굴복 안해"
FILES-US-TECH-MARKET-REDDIT ⓒ AFP=뉴스1
(서울=뉴스1) 김민석 기자 = 미국 최대 IT·소셜미디어 플랫폼 레딧이 AI 기업을 상대로 법적 공세를 강화하고 있다.
일각에선 레딧이 AI 기업과 라이선스 계약 체결을 목표로 전략적으로 소송을 활용한다는 지적이 나온다.
28일 IT 업계에 따르면 레딧은 엔트로픽이 데이터를 무단으로 수집했다며 소송(6월)한 데 이어 이달엔 퍼플렉시티 AI와 데이터 크롤러·스크래퍼 업체 3곳을 상대로 뉴욕 연방법원 소송(DMCA 위반 혐의)을 제기했다.
레딧은 퍼플렉시티의 불법적 데이터 수집을 입증하고자 '허니팟' 테스트를 실시했다.
레딧은 구글 검색 엔진만 접근 가능한 테스트 콘텐츠를 노출한 후 해당 콘텐츠가 어떤 경로로 유출되는지 추적했다. 테스트 결과 몇 시간 만에 퍼플렉시티의 답변 엔진에서 콘텐츠 내용이 검색됐다.
레딧은 퍼플렉시티가 해당 콘텐츠를 획득하는 유일한 방법은 구글 검색 결과에서 레딧 데이터를 스크래핑하는 것이라고 주장했다. 스크래퍼 업체 3곳이 7월 1일부터 13일까지 총 31억 건(서프API 약 18억 4000만 건·옥시랩스 7억 8000만 건·AWM프록시는 4억 8000만 건)을 수집했다고 설명했다.
레딧은 지난해 5월 퍼플렉시티에 데이터 스크래핑 중단을 요구하는 서한을 보냈지만, 레딧 인용이 오히려 40배 급증했다고 했다.
레딧 측은 "자사 콘텐츠 인용 증가에 심지어 외부 관찰자들은 퍼플렉시티와 라이선스 계약을 체결한 것으로 오인하기도 했다"고 소장에 썼다.
벤 리 레딧 최고법무책임자는 "AI 기업들이 양질의 인간 콘텐츠를 확보하기 위한 군비 경쟁에 돌입했고 산업적 규모의 '데이터 세탁' 경제를 촉발했다"며 "스크래퍼들은 법적 장치를 우회해 데이터를 훔친 후 고객들에게 판매하고 있다"고 지적했다.
FRANCE-TECHNOLOGY-AI-INTERNET-PERPLEXITY AI ⓒ AFP=뉴스1
퍼플렉시티는 레딧이 구글·오픈AI 등과 훈련 데이터 협상에 자사와의 소송 자체를 활용하려는 것이라고 주장했다. 라이선스 체결 압박 및 협상 우위를 점하려는 전략적 소송이라는 것이다.
실제로 레딧은 구글과 AI 데이터 라이선스 계약 재협상에서 콘텐츠 가치에 따른 '동적 가격 모델'을 요구하고 있다. 동적 가격 모델은 AI 답변에서 레딧 콘텐츠가 인용될 때 중요도를 따져 수익을 배분받는 것을 말한다.
레딧은 구글·오픈AI와는 각각 연간 6000만 달러·7000만 달러 규모의 데이터 라이선스 계약을 체결한 상태다. 레딧 전체 매출의 약 10%를 차지한다.
레딧·앤트로픽 간 소송은 8월 조정 절차에 들어갔다.
퍼플렉시티 측은 "자사 모델은 데이터로 모델을 학습·훈련하지 않는다"며 "합법적으로 레딧 데이터에 접근하고 있음에도 비용을 지불하라고 압박하고 있다. 강압적 전술에 굴복하는 건 우리의 사업 방식이 아니다"고 입장을 냈다.
<용어설명>
■ 크롤러
크롤러(crawler)는 자동화 방식으로 웹사이트의 여러 페이지를 방문해 데이터를 수집하는 컴퓨터 프로그램이다.
■ 허니팟
허니팟(Honeypot)은 보안 분야에서 해커나 데이터 스크래퍼 등 비인가 접속자를 유인하기 위해 의도적으로 함정 또는 가짜 데이터를 만들어 노출하는 기술을 말한다. 실제로는 의미 없는 시스템·파일·가상 계정·사이트 등을 만들어 누군가가 의도적으로 접근하거나 해킹·스크랩을 시도할 경우 해당 행위를 탐지하고 기록한다.
■ DMCA
DMCA(Digital Millennium Copyright Act)는 1998년 미국에서 제정된 온라인 시대 저작권 보호를 위한 대표 법률이다. 디지털 환경에서 저작권 침해 문제를 해결하고 인터넷 플랫폼 업체와 저작권자 모두를 보호하는데 중점을 두고 있다.
퍼플렉 "데이터 가격협상 우위노린 본보기 소송, 굴복 안해"
(서울=뉴스1) 김민석 기자 = 미국 최대 IT·소셜미디어 플랫폼 레딧이 AI 기업을 상대로 법적 공세를 강화하고 있다.
일각에선 레딧이 AI 기업과 라이선스 계약 체결을 목표로 전략적으로 소송을 활용한다는 지적이 나온다.
28일 IT 업계에 따르면 레딧은 엔트로픽이 데이터를 무단으로 수집했다며 소송(6월)한 데 이어 이달엔 퍼플렉시티 AI와 데이터 크롤러·스크래퍼 업체 3곳을 상대로 뉴욕 연방법원 소송(DMCA 위반 혐의)을 제기했다.
레딧은 퍼플렉시티의 불법적 데이터 수집을 입증하고자 '허니팟' 테스트를 실시했다.
레딧은 구글 검색 엔진만 접근 가능한 테스트 콘텐츠를 노출한 후 해당 콘텐츠가 어떤 경로로 유출되는지 추적했다. 테스트 결과 몇 시간 만에 퍼플렉시티의 답변 엔진에서 콘텐츠 내용이 검색됐다.
레딧은 퍼플렉시티가 해당 콘텐츠를 획득하는 유일한 방법은 구글 검색 결과에서 레딧 데이터를 스크래핑하는 것이라고 주장했다. 스크래퍼 업체 3곳이 7월 1일부터 13일까지 총 31억 건(서프API 약 18억 4000만 건·옥시랩스 7억 8000만 건·AWM프록시는 4억 8000만 건)을 수집했다고 설명했다.
레딧은 지난해 5월 퍼플렉시티에 데이터 스크래핑 중단을 요구하는 서한을 보냈지만, 레딧 인용이 오히려 40배 급증했다고 했다.
레딧 측은 "자사 콘텐츠 인용 증가에 심지어 외부 관찰자들은 퍼플렉시티와 라이선스 계약을 체결한 것으로 오인하기도 했다"고 소장에 썼다.
벤 리 레딧 최고법무책임자는 "AI 기업들이 양질의 인간 콘텐츠를 확보하기 위한 군비 경쟁에 돌입했고 산업적 규모의 '데이터 세탁' 경제를 촉발했다"며 "스크래퍼들은 법적 장치를 우회해 데이터를 훔친 후 고객들에게 판매하고 있다"고 지적했다.
퍼플렉시티는 레딧이 구글·오픈AI 등과 훈련 데이터 협상에 자사와의 소송 자체를 활용하려는 것이라고 주장했다. 라이선스 체결 압박 및 협상 우위를 점하려는 전략적 소송이라는 것이다.
실제로 레딧은 구글과 AI 데이터 라이선스 계약 재협상에서 콘텐츠 가치에 따른 '동적 가격 모델'을 요구하고 있다. 동적 가격 모델은 AI 답변에서 레딧 콘텐츠가 인용될 때 중요도를 따져 수익을 배분받는 것을 말한다.
레딧은 구글·오픈AI와는 각각 연간 6000만 달러·7000만 달러 규모의 데이터 라이선스 계약을 체결한 상태다. 레딧 전체 매출의 약 10%를 차지한다.
레딧·앤트로픽 간 소송은 8월 조정 절차에 들어갔다.
퍼플렉시티 측은 "자사 모델은 데이터로 모델을 학습·훈련하지 않는다"며 "합법적으로 레딧 데이터에 접근하고 있음에도 비용을 지불하라고 압박하고 있다. 강압적 전술에 굴복하는 건 우리의 사업 방식이 아니다"고 입장을 냈다.
<용어설명>
■ 크롤러
크롤러(crawler)는 자동화 방식으로 웹사이트의 여러 페이지를 방문해 데이터를 수집하는 컴퓨터 프로그램이다.
■ 허니팟
허니팟(Honeypot)은 보안 분야에서 해커나 데이터 스크래퍼 등 비인가 접속자를 유인하기 위해 의도적으로 함정 또는 가짜 데이터를 만들어 노출하는 기술을 말한다. 실제로는 의미 없는 시스템·파일·가상 계정·사이트 등을 만들어 누군가가 의도적으로 접근하거나 해킹·스크랩을 시도할 경우 해당 행위를 탐지하고 기록한다.
■ DMCA
DMCA(Digital Millennium Copyright Act)는 1998년 미국에서 제정된 온라인 시대 저작권 보호를 위한 대표 법률이다. 디지털 환경에서 저작권 침해 문제를 해결하고 인터넷 플랫폼 업체와 저작권자 모두를 보호하는데 중점을 두고 있다.
댓글목록
등록된 댓글이 없습니다.