Гонка вооружений в сфере нейросетей толкает технологических гигантов на все более рискованные шаги, если даже не отчаянные. Пока одни компании тратят время и пытаются договориться с правообладателями контента, другие, похоже, решают действовать по принципу «вижу цель — не вижу препятствий». Компания NVIDIA оказалась в центре громкого судебного скандала, который больше напоминает сюжет о корпоративном шпионаже, чем стандартное разбирательство об авторских правах.
Против «зеленого» гиганта подан коллективный иск в Окружной суд США. Истцы утверждают, что руководство NVIDIA не просто знало, но и санкционировало использование пиратских библиотек для обучения своих больших языковых моделей (LLM). Главным фигурантом дела стал ресурс Anna’s Archive — теневая онлайн-библиотека, предоставляющая бесплатный доступ к миллионам книг и научных статей, защищенных авторским правом.
Согласно судебным документам и внутренним письмам компании команда NVIDIA по стратегии данных напрямую связалась с представителями Anna’s Archive. Пиратский ресурс предупредил корпорацию, что их коллекция получена незаконным путем. И что самое интересное, несмотря на предупреждение, NVIDIA дала «зеленый свет» на продолжение сотрудничества, получив доступ примерно к 500 терабайтам данных.
В иске также упоминается, что компания использовала материалы и с других известных пиратских площадок, таких как LibGen, Sci-Hub и Z-Library. Более того, NVIDIA обвиняют в распространении скриптов, которые позволяли её корпоративным клиентам автоматически скачивать эти нелегальные датасеты.
Сама корпорация ранее заявляла, что её модель NeMo обучается в полном соответствии с законом, ссылаясь на принципы «добросовестного использования». Однако доказательства прямых переговоров с пиратами могут серьезно осложнить защиту компании в суде.
