"Dados são o novo petróleo", tradução livre de "Data is the new oil", frase cunhada por Clive Humb em 2006, uma matemático londrino especializado em Ciência de Dados. Mas, a frase original não parava por ai. Dizia: "Data is the new oil. It's valuable, but if unrefined it cannot really be used (…) so must data be broken down, analysed for it to have value." Basicamente, nessa afirmação, Clive Humb defendia que, assim como o petróleo precisa ser refinado, dados precisam ser analisados para terem valor.
E ele estava certo. Em 2017, o The Economist reescreveu e publicou a famosa declaração do matemático: "O recurso mais valioso do mundo não é mais petróleo, mas dados", tradução livre de "The world's most valuable resource is no longer oil, but data", o que reforça a importância dos dados para a sociedade na era digital. Daí a importância de técnicas de mineração de dados, tão essenciais às atividades de inteligência artificial, pesquisa e inovação.
Com o avanço da tecnologia, é grande a variedade de informações produzidas por diferentes aplicações, uma vez que cidadãos comuns e instituições passaram a produzir, coletar e armazenar uma quantidade enorme de dados em base (ou banco) de dados. Mas esses dados individualizados, como já afirmava o famoso matemático em 2006, não têm valor e para se extrair dados relevantes e úteis dentro dessa gama de informações que são produzidas e armazenadas, é utilizada a técnica de mineração de dados ou data mining, ou mineração de dados e textos (MDT), ou text and data mining (TDM), definida como sendo o conjunto de técnicas dedicadas a encontrar padrões de interesse a partir de grandes quantidades de dados, em um complexo processo de coleta e análise de informações. Ou seja, trata-se de um processo usado para extrair dados utilizáveis de um conjunto maior de dados brutos.
Essas técnicas de mineração de dados e textos têm exercido um papel crucial no desenvolvimento e aprimoramento de sistemas de Inteligência Artificial (AI) e aprendizado de máquina ou machine learning. Isto porque na última década, os avanços no poder e na velocidade de processamento nos permitiram ir de práticas manuais para análises de dados rápidas e automatizadas. Quanto mais complexos forem os conjuntos de dados coletados, mais potencial haverá para deles extrair informações relevantes. Não é à toa que instituições públicas e privadas estão usando a técnica de mineração de dados para descobrir relações entre tudo — desde preços, promoções e demografias até como a economia, o risco, a concorrência e as mídias sociais estão afetando seus modelos de negócio, receitas, operações e relacionamentos com os clientes. Essas técnicas de análise de dados também têm sido vitais para o sequenciamento do Coronavírus e no desenvolvimento de vacinas contra a COVID-19. Afinal, dados corretos e assertivos ajudam a combater os achismos!
Entretanto, na medida em que a mineração de dados e textos tem se tornado uma ferramenta imperativa, deparamo-nos com os entraves da legislação brasileira, especialmente, a Lei de Direitos Autorais (LDA), Lei n. 9.610/98, que afeta sobremaneira o acesso e o uso de banco de dados.
A Lei de Direitos Autorais
A LDA instituiu que base de dados e programas de computador são obras intelectuais protegidas. O art. 87 desse diploma legal prevê que o titular do direito patrimonial sobre uma base de dados terá o direito exclusivo, a respeito da forma de expressão da estrutura da referida base, de autorizar ou proibir a sua reprodução total ou parcial, por qualquer meio, traduções, adaptações e reordenações, entre outras utilizações. Por sua vez, o art. 29, inciso IX dispõe que depende de autorização prévia e expressa do autor a inclusão de obras protegidas na bases de dados.
Adicionalmente, se bancos de dados possuírem obras protegidas em seu conteúdo, como textos, músicas e imagens, estes seguem protegidos (art. 7o, §2), dependendo de autorização do titular da obra a sua utilização. Deste modo, haverá violação de direitos de reprodução se houver cópia do acervo.
Neste contexto, vale lembrar que a mineração de dados e textos é um processo de detecção de um padrão relevante no banco de dados. Portanto, o acesso e uso da base de dados é essencial para que a atividade de mineração seja bem-sucedida.
O descasamento entre as atividades de mineração de dados e textos, que dependem, essencialmente, do acesso a base de dados para coleta e armazenagem de informações, e a legislação autoral brasileira é uma barreira, posto que é inegável e indubitável a dificuldade em se localizar e negociar com detentores de direitos quando se está tratando de uma quantidade enorme de dados.
Neste cenário, qualquer projeto que dependa da mineração de dados que busque evitar problemas jurídicos, se vê diante de apenas duas opções: evitar usar material protegido, o que pode comprometer os resultados da pesquisa em virtude de deficiências no material separado para análise; ou obter autorização dos detentores dos direitos sobre as obras e bancos de dados envolvido, o que tornará o processo demorado e dispendioso, haja vista que a quantidade e variedade de dados utilizados em um projeto costumam implicar em uma imensidade de titulares diferentes.
Tramita no Congresso Nacional dois Projetos de Lei sobre IA, o PL 872/2021, do Senado Federal, e o PL 21/2020, também conhecido como o Marco Civil da Inteligência Artificial, que foi colocado em regime de urgência para votação na Câmara dos Deputados. Não obstante, muito embora o legislador brasileiro pareça demonstrar urgência na aprovação de uma lei que estabeleça princípios, direitos e deveres para o uso da inteligência artificial, o legislador não endereça as questões, ao mínimo, controversas, impostas pela LDA, o que parece ser um contrassenso, pois enquanto o Brasil não equacionar a limitação aos direitos autorais, permaneceremos em situação de desvantagem frente aqueles países que já estão tratando a questão, à exemplo dos Estados Unidos, que foram um dos primeiros países a reconhecer, em sua jurisprudência, a licitude de práticas de reprodução e uso de obras protegidas para fins de mineração de dados e textos.
Em suma, não restam dúvidas de que a mineração de dados e textos se faz essencial para atividades de pesquisa e para o avanço da ciência. Esta técnica, entretanto, esbarra no sistema de proteção dos direitos autoriais, dado que a extensão do direito autoral para os bancos de dados não veio acompanhada de uma limitação que estipulasse as condições nas quais o acesso e uso de bases de dados e seu conteúdo seria permitido, mesmo que somente para fins de pesquisa científica.
Diante desse ambiente de incerteza jurídica, enquanto o legislador brasileiro não enfrentar a questão, o Brasil permanecerá atrasado na corrida por inovação tecnológica e uso de aplicações de inteligência artificial.