GitHub Copilot é acusado de roubar código e recebe diversas críticas de desenvolvedores

O GitHub apresentou no final de junho o Copilot, a ferramenta que sugere linhas de código e até funções inteiras para projetos hospedados na plataforma.

O GitHub Copilot é baseado em inteligência artificial, o projeto veio de uma parceria com a OpenAI, as duas empresas trabalharam para possibilita ao Copilot sugerir, em tempo real, códigos em linguagens de programação como Python, TypeScript, Javascript, Ruby e Go.

Projetos de inteligência artificial requer muita quantidades de dados para ser treinado. O GitHub utilizou códigos abertos e disponíveis publicamente para treinar o Copilot, mas esses códigos estão disponíveis sob licenças como a GPL.

Aonde começa o problema. A GPL exige que trabalhos derivados sejam disponibilizados sob a mesma licença. Acontece que se, por exemplo, o GitHub Copilot reproduzir trechos de códigos disponíveis sob GPL em suas sugestões, mas o projeto como um todo não seguir as condições dessa licença?

De forma geral, a impressão que alguns desenvolvedores estão tendo é que o GitHub está tira proveito de códigos alheios em benefício próprio, porque a ferramenta em si não é baseada em uma licença aberta. Alguns especialistas em direitos digitais apontam que não é dessa forma.

Julia Reda, ex-membro do Parlamento Europeu, disse em seu blog, afirma que a ideia de corporações como a Microsoft (dona do GitHub desde 2018) usar código público parece entrar em conflito com o propósito do copyleft (conceito de licença que concede mais liberdades de uso de uma obra), mas banir essa prática poderia resultar em leis de direitos autorais mais rígidas do que as atuais.

Reda também entende que códigos gerados pelo GitHub Copilot não infringem direitos autorais:

Esse uso só é relevante dentro da lei de direitos autorais se o trecho usado for original e exclusivo o suficiente para alcançar o limite da originalidade.

(…) Os curtos trechos de código que o Copilot reproduz dos dados de treinamento dificilmente atingirão o limite da originalidade.

Reprodução de código é rara, informa GitHub

Reda entende que argumentar que o GitHub Copilot gera trabalhos derivados corresponde a supor que uma máquina pode produzir obras, suposição tida por ela como errada e contraproducente.

O CEO do GitHub Nat Friedman, declarou no Twitter que treina sistemas de aprendizado de máquina com dados públicos é um uso justo, então não submete a prática ao rigor das leis de direitos autorais.

Friedman explicou na sua rede social do Twitter que o GitHub tem trabalhado para reduzir a reprodução acidental de dados de treinamento e fez um destaque a possibilidade existe, mas é extremamente rara.

A página de FAQ do GitHub Copilot informa que os trechos de códigos utilizados no treinamento são sugeridos apenas em 0,1% das vezes, mas disse que um rastreador está sendo desenvolvido “para ajudar a detectar as raras instâncias de código que são repetidas a partir do conjunto de treinamento”.