(2024 - em andamento) Mestrado em Ciência da Computação
Programa de Pós-graduação em Ciência da Computação (PPGCC) da UFSCar
(2017 - 2023) Bacharelado em Engenhaira de Computação
Universidade Federal de São Carlos
Título do projeto: Automatic identification of bias in large language models
Nível: Mestrado
Resumo: Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversas áreas, desde raciocínio jurídico até suporte à decisão clínica. À medida que esses modelos são cada vez mais integrados em aplicações do mundo real, surgem preocupações quanto à sua confiabilidade, imparcialidade e implicações éticas. Estudos mostram que os LLMs podem gerar resultados enviesados, reforçando estereótipos prejudiciais e discriminando grupos marginalizados. Entre os vieses mais comuns estão os estereótipos ocupacionais, disparidades raciais e o viés linguístico, no qual as respostas variam com base na língua ou no dialeto utilizado no prompt. Este estudo propõe um framework sistemático para avaliar e classificar LLMs com base em seus níveis de viés, utilizando o sistema de pontuação Elo. A avaliação será realizada por meio de uma tarefa de completar sentenças, na qual os modelos geram respostas para prompts contendo marcadores sociais explícitos. As setenças completadas serão anonimizadas e avaliadas por meio de um classificador de regard, que atribui uma pontuação que reflete o quão positivamente ou negativamente diferentes grupos demográficos são retratados. Comparações pareadas serão usadas para atualizar as pontuações Elo, estabelecendo um ranking dos LLMs em termos de viés. Essa abordagem permite comparações escaláveis e sistemáticas entre modelos.
Orientadora: Profa. Dra. Helena de Medeiros Caseli
Publicações decorrentes deste trabalho:
Fernanda Malheiros Assi and Helena Caseli. 2024. Biases in GPT-3.5 Turbo model: a case study regarding gender and language. In Proceedings of the 15th Brazilian Symposium in Information and Human Language Technology, pages 32–43, Belém do Pará, Brazil. Association for Computational Linguistics.
Título do projeto: Análise de emoções em tweets de resposta a posts do ex-presidente do Brasil Jair Messias Bolsonaro
Nível: Trabalho de Conclusão de Curso
Resumo: Nas últimas décadas, diversos avanços computacionais permitiram o acesso mais democrático à internet e, consequentemente, às redes sociais. O alcance da política digital é vasto e o papel do Twitter nesse cenário é inegável. Esta plataforma evoluiu para se tornar um grande palco para o debate político, onde cidadãos, líderes e instituições interagem diretamente. No Brasil, essa dinâmica é especialmente relevante dada a atividade intensa do ex-presidente Jair Messias Bolsonaro na plataforma. Entretanto, a análise manual de um volume tão grande de dados é impraticável e propensa a erros. Para que tais dados textuais possam ser transformados em informação, são necessárias tecnologias que consigam extrair e processar esses dados. O PLN oferece ferramentas valiosas para a análise automatizada de grandes volumes de texto. Dentre essas ferramentas, destaca-se o GoEmotions, um modelo de aprendizado de máquina que consegue identificar 27 categorias de emoções em textos. Desta forma, este trabalho utilizou o GoEmotions, adaptado para o português, para categorizar as emoções presentes em tweets de resposta aos tweets do ex-presidente Jair Bolsonaro, visando entender quais emoções predominam nesse contexto. A análise dos resultados mostrou um desequilíbrio substancial na presença das emoções no córpus, sendo a “raiva” a emoção mais predominante. Além disso, foi constatada uma performance variada do modelo na identificação das emoções, com maior precisão na identificação de “raiva”, mas apresentando desafios com emoções complexas como “admiração” e “curiosidade”, especialmente em contextos de ironia ou sarcasmo. Esses resultados apontam para o potencial dos modelos de PLN na análise de emoções em tweets políticos, ao mesmo tempo que destacam a necessidade de melhorias contínuas para lidar com nuances da linguagem.
Orientadora: Profa. Dra. Helena de Medeiros Caseli
Publicação decorrente deste trabalho:
ASSI, Fernanda Malheiros. Análise de emoções em tweets de resposta a posts do ex-presidente do Brasil Jair Messias Bolsonaro. 2023. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18488.
Título do projeto: Inferência automática da carga afetiva em postagens de redes sociais
Nível: Iniciação Científica
Breve descrição: Este projeto visa criar um modelo computacional capaz de medir a carga afetiva através do tempo, em postagens de redes sociais, atreladas a um tópico ou evento específico por meio de séries temporais de domínios emocionais. A valência e a excitação média estimadas a partir de postagens realizadas em uma mesma janela curta de tempo representarão uma observação dessa série temporal, que descreve a variação da carga afetiva no espaço de Scherer. Para a previsão de carga afetiva, pretende-se utilizar como base a arquitetura do modelo LSTM e células GRU.
Agência financiadora:
FAPESP (2021/07067-0)
Orientadora: Profa. Dra. Helena de Medeiros Caseli
Publicação decorrente deste projeto:
ASSI, F. M.; CANDIDO, G. B.; SILVA, L. N. S.; SILVA, D. F.; CASELI, H. M. UFSCar’s Team at ABSAPT 2022: Using Syntax, Semantics and Context for Solving the Tasks
fernanda.malheiros@estudante.ufscar.br