Пользователи GitHub собираются коллективно подать в суд на Microsoft: что случилось
Microsoft использовал общедоступный код на Github для обучения своего инструмента искусственного интеллекта. Авторы кода считают, что их труд эксплуатируют — идет расследование, пишет Vice.
Подробности
Microsoft купила платформу для совместного кодирования GitHub еще в 2018 году, а в июне 2022 выпустила инструмент с искусственным интеллектом Microsoft GitHub Copilot. ИИ обучался с использованием миллиардов строк открытого исходного кода, размещенного на Github, однако мнение программистов об этом никто не спросил. Программист и юрист Мэтью Баттерик пишет, что собрал коллективный судебный иск против GitHub Copilot. Сейчас идет расследование.
Напомним, что Copilot является расширением для среды кодирования Microsoft Visual Studio, которое использует алгоритмы прогнозирования для автоматического завершения строк кода. Это делается с помощью модели ИИ под названием Codex, которая была создана и обучена OpenAI с использованием данных, извлеченных из репозиториев кода в открытом Интернете.
Что говорят в корпорации
Представители Microsoft утверждают, что инструмент «обучился на десятках миллионов общедоступных репозиториев» кода, и что компания «считает, что это пример преобразующего добросовестного использования». Но программисты так не считают.
Github, иллюстрация
«Как Нео, подключенный к Матрице, или корова на ферме, Copilot хочет превратить нас не более чем в производителей ресурсов, которые нужно добывать, — говорит Баттерик. — Даже коровы получают еду и кров от сделки. Copilot ничего не делает для наших индивидуальных проектов. И ничего для широкого открытого исходного кода».
Некоторые разработчики даже заметили, что Copilot копирует их код — примеры поразительного сходства специалисты показали в Twitter. Дело в том, что лицензии на программное обеспечение с открытым исходным кодом требуют, чтобы любой, кто использует код, указал его первоисточник. Естественно, это становится практически невозможным, когда вы используете миллиарды строк кода для обучения модели ИИ.
GitHub же заявил, что данные, взятые из общедоступных репозиториев, «не предназначены для дословного включения в выходные данные Copilot», и утверждает, что подавляющее большинство выходных данных (> 99%) не соответствует обучающим данным, согласно внутреннему отчету компании. То есть, ИИ не «списывает».
Юристы считают это все отговорками: компания присваивает опыт разработчиков для своих коммерческих проектов, ничего не предлагая взамен.
«Похоже, что Microsoft получает прибыль от работы других, игнорируя условия базовых лицензий с открытым исходным кодом и другие юридические требования», — заявила юридическая фирма Джозефа Савери, которая участвует в расследовании.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: