1. Cronograma
1. Informações gerais
Este curso tem por objetivo capacitar os estudantes a utilizar ferramentas de análise de dados, viabilizando a realização de pesquisas empíricas em direito.
São desenvolvidas habilidades de coleta de dados, organização de informações, classificação de elementos e elaboração de gráficos adequados a sua visualização. Além disso, o curso envolve uma introdução à programação em Python, voltada a capacitar os estudantes a desenvolver extratores (crawlers) que gerem bancos de dados hábeis a serem explorados pelas ferramentas de análise.
Embora esta disciplina não tenha pré-requisitos, é desejável que os estudantes tenham conhecimento metodológico prévio, para que eles possam incorporar adequadamente as ferramentas da ciência de dados a suas pesquisas. Cursos de metodologia que desenvolvam essas competências podem ser encontrados na página Metodologia da Pesquisa em Direito.
Este conteúdo foi ofertado em vários formatos, desde 2019, para turmas da graduação e da pós-graduação da Faculdade de Direito. Neste segundo semestre de 2024, ele será ofertado no PMPD, como Ciência de dados aplicada ao direito regulatório e políticas públicas.
O material do curso é livremente disponibilizado na internet, mas a participação nos encontros síncronos é destinada aos estudantes matriculados nas disciplinas.
2. Objetivos
Abordar o direito a partir da data science envolve enfrentar o desafio de como as práticas jurídicas podem ser explicadas a partir de interpretações realizadas a partir de bases de dados. Essas interpretações consistem na busca de padrões, de algum tipo de regularidade que nos permita utilizar um conjunto informações particulares (sobre processos, sobre decisões, sobre ministros), para fazer afirmações gerais sobre o conjunto de dados.
Para enfrentar esse desafio, o primeiro passo é aprender como é possível fazer pesquisa a partir de bases de dados já existentes, desenhando pesquisas capazes de construir novos conhecimentos, a partir de informações previamente organizadas.
Porém, nem sempre as bases disponíveis são suficientes para enfrentar os nossos problemas de pesquisa, o que pode exigir a construção de novas bases ou, no mínimo, a complementação de bases existentes. Essa complementação normalmente se dá por meio da criação e implementação de novas classificações, que permitam segmentar os dados segundo parâmetros diversos dos que vinham sendo utilizados.
O desafio geral é encontrar padrões, mas os padrões somente são formados quando classificamos os dados de uma maneira determinada. A classificação é o grande desafio teórico e filosófico envolvido na pesquisa, pois ela envolve o desenvolvimento de modelos conceituais capazes de captar as complexidades dos objetos que pretendemos descrever. Sem uma teoria adequada, é impossível fazer pesquisa empírica com resultados sólidos e é muito fácil chegar a conclusões equivocadas, ainda mais quando se utiliza modelos de machine learning.
Os modelos de machine learning são algoritmos desenvolvidos para buscar padrões e eles encontram padrões em quase qualquer conjunto de informações. Ferramentas de clusterização, por exemplo, vão subdividir um conjunto em subconjuntos, a partir de critérios de semelhança. Ocorre que esses modelos encontram padrões nas informações, não encontram padrões nos fatos. Para que eles possam ser úteis, é preciso converter os fenômenos observados empiricamente em informações com sentido, o que exige conhecimento material profundo dos objetos analisados. Sem um modelo descritivo adequado, não é possível aplicar as ferramentas computacionais disponíveis.
Portanto, a observação de padrões significativos em um conjunto de dados exige a combinação de conhecimento material (que garanta classificações adequadas) com habilidades computacionais (que viabilize o desenvolvimento de algoritmos adequados de análise).
Para completar o tripé da data science, precisamos de um terceiro conjunto de habilidades, que capacite o pesquisador a fazer inferências sólidas a partir do conjunto de dados. O estudo de como é possível fazer afirmações confiáveis sobre os padrões existentes em um conjunto de dados recebe tipicamente o nome de metodologia. Que estratégias metodológicas são viáveis para que seja possível compreender o modo como alguns fenômenos observáveis se relacionam?
O curso de Data Science e Direito tem por objetivo servir como uma introdução para juristas, com relação às potencialidades da ciência de dados para a compreensão de fenômenos jurídicos. Essa finalidade faz com que o curso seja modelado para pessoas que tenham um conhecimento material relativamente amplo sobre o direito, mas que precisam desenvolver habilidades metodológicas (relativas ao desenho da pesquisa) e computacionais (que viabilizem a sua execução).
3. Estrutura do curso
3.1 Módulos semanais
A disciplina é dividida em 13 módulos, cada qual contando com leitura específica, aulas presenciais e atividades.
3.2 Estudo
Um dos pontos fundamentais do curso são as leituras previstas em cada módulo, que serão de 3 tipos:
- Leitura obrigatória: é o mínimo para o acompanhamento das aulas. A aprovação na disciplina é condicionada a um domínio elevado da literatura obrigatória, além da participação em classe.
- Leitura sugerida: leitura indicada para chegar a um resultado superior de aprendizagem. Para obter um MS, é preciso que o estudante explore (parcialmente, claro) a literatura sugerida.
- Leitura complementar: Para pretender um SS, os estudantes devem ultrapassar as leituras mínima e sugerida, ingressando na literatura complementar referente aos temas de maior interesse para sua pesquisa.
3.2 Relatório final
Ao final da disciplina, cada estudante deverá entregar um relatório final, descrevendo a sua participação, avaliando o seu rendimento e apresentando uma autoavaliação que atribua ao seu desempenho a menção que for adequada, nos termos da descrição de cada menção (no ponto 5, abaixo).
3.3 Trabalho final técnico ou acadêmico
Como atividade complementar, cada estudante deverá apresentar um trabalho final, que pode ser feito individualmente ou em grupo. O tipo do trabalho final e os grupos que o realizarão devem ser definidos até o final do Módulo 8 (embora seja desejável que essa definição ocorra em meados do curso)
Este trabalho pode ser:
- Um projeto de pesquisa de dados em direito. Também é possível fazer um artigo, mas dificilmente haverá tempo hábil para planejar e executar uma pesquisa.
- Um programa capaz de extrair dados e gerar um banco, acerca de dados que não foram ainda colhidos e organizados. De preferência, ele deve estar relacionado com o projeto de pesquisa do estudante.
- Um banco de dados desenvolvido, construído ao longo da disciplina, que possa ser disponibilizado de forma pública.
- Uma análise de um banco de dados, produzido autonomamente ou não.
- Outro trabalho técnico ou acadêmico, desde que seja aprovado pelo(s) docente(s). Nesse caso, o estudante ou grupo deve apresentar uma proposta de trabalho alternativo até o final do prazo de definição do trabalho final.
4. Sistema de Menções
As menções do curso terão o seguinte significado:
- SR - Abandono do curso.
- II ou MI - Resultado insuficiente. Leituras incompletas dos textos obrigatórios, muitas faltas nos encontros síncronos e pouca realização das atividades.
- MM - Resultado mínimo: esse é o resultado esperado dos estudantes que focarem no comparecimento das aulas e na realização das atividades obrigatórias. Esse rendimento correspondente à realização da maior parte das leituras obrigatórias e atividades semanais, mas sem uma realização das leituras sugeridas e sem uma participação ativa nos encontros síncronos. Em termos de tempo, o MM corresponde a menos de 1h semanal de estudos, para além da presença nas aulas.
- MS - Resultado bom: esse é o resultado esperado para os estudantes que têm uma presença constante nas aulas (gerais e em grupo), realizam quase todas as leituras obrigatórias, alguma da leitura sugerida e participam das atividades individuais e em grupo. Esse é o resultado esperado para quem dedicar uma média de 5 horas semanais (o que permite fazer todas as leituras obrigatórias e incorporar também parte das leituras sugeridas)
- SS - Resultado excelente: esse resultado envolve, além das leituras e atividades obrigatórias, a realização de boa parte das leituras sugeridas, a exploração de parte da literatura complementar e a realização do trabalho final. Além disso, essa nota reflete uma participação constante e ativa nos encontros síncronos. Trata-se de um resultado que exige mais 6 horas de dedicação semanal (o que permite incorporar as atividades complementares, especialmente a realização do trabalho final).