일요일, 캘리포니아 주지사 개빈 뉴섬은 생성형 AI 시스템을 개발하는 기업들이 자사 시스템 훈련에 사용한 데이터의 고차원 요약본을 공개하도록 요구하는 법안 AB-2013에 서명했습니다. 요약본에는 데이터 소유자가 누구인지, 데이터가 어떻게 확보되었거나 라이선스를 취득했는지, 그리고 저작권이 있는 정보나 개인 정보가 포함되어 있는지 여부를 포함한 내용이 담겨야 합니다.
그러나 많은 AI 기업들은 법을 준수할지 여부에 대해 명확한 입장을 밝히지 않고 있습니다.
TechCrunch는 OpenAI, Anthropic, Microsoft, Google, Amazon, Meta, Stability AI, Midjourney, Udio, Suno, Runway, Luma Labs 등 AI 업계의 주요 기업들에게 문의했습니다. 그 중 절반도 안 되는 기업들이 응답했으며, Microsoft는 답변을 명시적으로 거부했습니다.
Stability, Runway, OpenAI만이 TechCrunch에 AB-2013을 준수할 것이라고 밝혔습니다.
OpenAI의 대변인은 “우리가 운영하는 모든 지역에서 해당 법을 준수한다”라고 말했습니다. Stability의 대변인은 회사가 “대중을 보호하면서 동시에 혁신을 저해하지 않는 신중한 규제를 지지한다”고 전했습니다.
공정하게 말하자면, AB-2013의 공개 요구 사항은 즉각 적용되는 것이 아닙니다. 이 법은 2022년 1월 이후에 출시된 시스템에 적용되며, 기업들은 2026년 1월까지 훈련 데이터 요약본을 공개할 수 있는 시간을 가집니다. 또한 이 법은 캘리포니아 거주자들에게 제공된 시스템에만 적용되므로 약간의 여지가 남아 있습니다.
그러나 공급업체들이 이에 대해 침묵하는 또 다른 이유가 있을 수 있으며, 이는 대부분의 생성형 AI 시스템이 훈련되는 방식과 관련이 있습니다.
훈련 데이터는 종종 웹에서 수집됩니다. 공급업체들은 방대한 양의 이미지, 노래, 비디오 등을 웹사이트에서 스크랩하여 자사 시스템을 훈련합니다.
몇 년 전만 해도 AI 개발자들은 모델 출시와 함께 제공되는 기술 문서에서 훈련 데이터의 출처를 밝히는 것이 일반적인 관행이었습니다. 예를 들어, Google은 초기 이미지 생성 모델인 Imagen의 훈련에 공개된 LAION 데이터 세트를 사용했다고 한때 공개한 바 있습니다. 많은 과거 논문들에는 학술 연구와 코드베이스가 포함된 오픈 소스 텍스트 모음인 The Pile을 언급하고 있습니다.
하지만 오늘날의 치열한 시장에서 훈련 데이터 세트의 구성은 경쟁 우위로 여겨지고 있으며, 많은 기업들은 이를 공개하지 않는 주된 이유로 꼽고 있습니다. 훈련 데이터에 대한 자세한 정보는 또한 개발자들에게 법적 문제를 야기할 수 있습니다. LAION에는 저작권 침해 및 개인 정보 유출과 관련된 이미지들이 포함되어 있으며, The Pile에는 Stephen King과 같은 작가들의 저작권이 있는 작품들을 포함한 Books3이 있습니다.
훈련 데이터 오용과 관련된 소송이 이미 여러 건 제기되었으며, 매달 새로운 소송들이 추가되고 있습니다.
작가들과 출판사들은 OpenAI, Anthropic, Meta가 저작권이 있는 책들, 특히 Books3의 일부를 훈련에 사용했다고 주장하고 있습니다. 음반사들은 Udio와 Suno가 뮤지션들에게 보상하지 않고 노래를 훈련에 사용했다고 소송을 제기했습니다. 예술가들은 Stability와 Midjourney가 데이터를 스크랩하는 행위가 도용에 해당한다고 주장하며 집단 소송을 제기했습니다.
AB-2013이 공급업체들에게 문제를 일으킬 수 있는 이유를 이해하기란 어렵지 않습니다. 이 법은 훈련 데이터 세트가 처음 사용된 시점과 데이터 수집이 진행 중인지를 포함한 잠재적으로 문제가 될 수 있는 사양을 공개하도록 요구합니다.
AB-2013은 범위가 상당히 넓습니다. AI 시스템을 “상당히 수정”하는 모든 주체, 즉 미세 조정 또는 재훈련하는 주체도 사용된 훈련 데이터에 대한 정보를 공개해야 합니다. 이 법에는 몇 가지 예외가 있지만, 대부분 사이버 보안 및 항공기 운영에 사용되는 AI 시스템에 적용됩니다.
물론, 많은 공급업체들은 공정 이용이라는 법리가 법적 보호막을 제공한다고 믿고 있으며, 이를 법정과 공공 성명에서 주장하고 있습니다. Meta와 Google과 같은 일부 회사는 훈련에 더 많은 사용자 데이터를 활용할 수 있도록 플랫폼 설정과 서비스 약관을 변경했습니다.
경쟁 압박을 받으며 공정 이용 방어가 결국 승리할 것이라고 베팅하는 일부 회사들은 IP 보호 데이터를 자유롭게 훈련에 사용했습니다. 로이터 보도에 따르면, Meta는 자사 변호사의 경고에도 불구하고 한때 저작권이 있는 책들을 AI 훈련에 사용했습니다. Runway가 Netflix와 Disney 영화를 훈련에 사용했다는 증거도 있습니다. 또한 OpenAI는 창작자들의 동의 없이 YouTube 동영상을 전사하여 GPT-4와 같은 모델을 개발한 것으로 알려졌습니다.
우리가 이전에 언급했듯이, 생성형 AI 공급업체들이 훈련 데이터 공개 여부와 상관없이 법적 제재 없이 넘어갈 가능성도 있습니다. 법원이 공정 이용을 지지하는 쪽으로 기울고, 생성형 AI가 충분히 변형적이라고 판단하여, The New York Times와 다른 원고들이 주장하는 표절 엔진이 아니라고 결론내릴 수도 있습니다.
더 극적인 시나리오에서는, AB-2013이 공급업체들이 특정 모델을 캘리포니아에서 철수시키거나, 공정 이용 및 라이선스 데이터를 기반으로 한 모델 버전만 캘리포니아 거주자들에게 제공하도록 유도할 수 있습니다. 일부 공급업체들은 AB-2013을 통해 타협하지 않고 법적 소송을 유발하는 공개를 피하는 것이 가장 안전한 방법이라고 판단할 수 있습니다.
이 법이 도전받거나 유예되지 않는다고 가정할 때, AB-2013의 기한이 약 1년 후에 다가오면 명확한 그림을 볼 수 있을 것입니다.