Breve descrição: A depressão é um transtorno de saúde mental que afeta grande parte da população global, sendo o segundo fator que mais contribui para a diminuição da expectativa de vida saudável. A depressão é caracterizada por uma forma clinicamente significativa de sofrimento psicológico que leva a muitos prejuízos na funcionalidade de uma pessoa, à redução na qualidade de vida e, em casos graves, pode levar à morte devido ao risco de suicídio. Contudo, de acordo com a Organização Mundial de Saúde, apenas um quarto dos indivíduos que sofrem de transtornos de saúde mental recebem cuidados adequados. Pesquisas na área de Inteligência Artificial (IA) e Processamento de Linguagem Natural (PLN) têm sido desenvolvidas há anos com o intuito de propor soluções computacionais que auxiliem na detecção e intervenção em transtornos de saúde mental. Soluções baseadas em IA e PLN que auxiliem na identificação de sinais de depressão podem ser úteis tanto no tratamento individual quanto na tomada de decisões de políticas públicas. De modo similar, soluções que ofereçam uma intervenção autônoma, ética, confiável, controlada e engajadora, em tempo real, podem ajudar a mitigar os danos causados pela depressão. Este projeto trabalha na proposição e desenvolvimento de soluções de IA e PLN para a detecção e intervenção em casos de saúde mental que, por serem autônomos, podem ter um alcance mais amplo e permitirem o apoio de saúde mental a indivíduos e populações que não teriam acesso a eles de outra forma. Além disso, como os determinantes sociais são frequentemente mencionados como fatores de risco para transtornos de saúde mental, este projeto também visa aprofundar a compreensão sobre eles em ambos os contextos (Brasil e Reino Unido). Este projeto visa atacar desafios científicos ainda presentes e bastante relevantes neste contexto: (i) tratamento da linguagem abstrata (como linguagem figurada), comumente usada nas narrativas de saúde mental, e (ii) produção de intervenções personalizadas para o contexto do indivíduo.
Agência financiadora: FAPESP (#2024/10233-7)
Vigência: 01/02/2025 a 31/01/2028
Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
Equipe de professores:
Profa. Dra. Aline Villavicencio (Universidade de Exeter, UK) - Coordenadora no exterior
Prof. Dr. Rodrigo Souza Wilkens (Universidade de Exeter, UK) - Coordenador no exterior
Profa. Dra. Doretta Caramaschi (Universidade de Exeter, UK)
Prof. Dr. Ivandré Paraboni (EACH/USP)
Prof. Dr. Ke Li (Universidade de Exeter, UK)
Profa. Dra. Kim Wright (Universidade de Exeter, UK)
Profa. Dra. Sylvia Iasulaitis (DCSo/UFSCar)
Profa. Dra. Vânia Paula de Almeida Neris (DC/UFSCar)
Alunos do LALIC:
Fernanda Malheiros Assi - aluna de Mestrado (PPGCC/UFSCar)
Karina Mayumi Johansson - aluna de Mestrado (PPGCC/UFSCar)
Rafael Vinicius Polato Passador - aluno de Mestrado (PPGCC/UFSCar)
Breve descrição: Muitas doenças apresentam tratamentos ineficazes, resultando em altas taxas de mortalidade, o que torna a descoberta de novas terapias essencial para a humanidade. Contudo, o desenvolvimento de novas terapias é um processo demorado e oneroso. Métodos de AM têm o potencial de acelerar descobertas ao identificar conhecimento latente em grandes volumes de dados médicos. Conhecimento latente pode ser definido como relações ou padrões que estão ocultos em grandes volumes de dados. A descoberta de conhecimento latente envolve a identificação automatizada de elementos que podem proporcionar novos entendimentos que dificilmente seriam alcançados por métodos tradicionais. No entanto, a automação de um processo dessa natureza é limitada pela forte dependência de especialistas, que pode ser contornada pelo emprego de métodos de AutoML. A maior limitação desses métodos reside na falta de transparência dos modelos gerados, representando um obstáculo significativo, especialmente em áreas críticas como a saúde. Este projeto propõe uma abordagem multimodal que combina AutoML, PLN e técnicas de explicabilidade para superar as limitações atuais e proporcionar descobertas mais rápidas e compreensíveis na área médica. Ao integrar dados estruturados, como informações clínicas e genéticas, com dados não estruturados, como textos médicos, essa abordagem pode descobrir padrões capazes de acelerar a descoberta de novas terapias e/ou tonar mais eficazes terapias existentes. Recentes avanços em AutoML e em técnicas de explicabilidade sugerem que essa estratégia pode viabilizar a descoberta de novos conhecimentos e assegurar a transparência necessária para a aplicação em sistemas de decisão críticos. O projeto visa utilizar essas técnicas para gerar visões complementares dos dados que possam acelerar o desenvolvimento de novas terapias, contribuindo significativamente para a melhoria dos tratamentos médicos e, consequentemente, para a saúde e a sobrevivência dos pacientes.
Agência financiadora: CNPq (Chamada CNPq/MCTI/FNDCT Nº 22/2024 - Programa Conhecimento Brasil - Apoio a Projetos em Rede com Pesquisadores Brasileiros no Exterior)
Vigência: 28/12/2024 a 31/12/2026
Coordenador na UFSCar: Prof. Dr. Tiago Agostinho de Almeida
Equipe de professores:
Profa. Dra. Aline Villavicencio (Universidade de Exeter, UK)
Profa. Dra. Helena de Medeiros Caseli (DC/UFSCar)
Prof. Dr. João Agostinho Machado Neto (ICB/USP)
Prof. Dr. Renato Moraes Silva (ICMC/USP)
Prof. Dr. Ricardo Cerri (ICMC/USP)
Breve descrição: Grandes volumes de dados políticos não-estruturados têm representado um desafio para a pesquisa científica. Portanto, o desenvolvimento de instrumentos voltados à extração de informações políticas e científicas a partir do Big Data mostra-se altamente estratégico. O objetivo desta proposta é desenvolver técnicas e ferramentas computacionais para a coleta, tratamento e classificação de dados políticos, que propiciem a realização de diversos experimentos para análise de redes complexas. Combinando Aprendizado de Máquina e Análise de Redes Sociais, serão realizadas diversas aplicações e modelagens de diferentes relações entre dados oriundos de Sites de Redes Sociais, mais especificamente do Twitter, bem como da API de Dados Abertos da Câmara dos Deputados. O intuito é que a pesquisa gere inovação no campo de metodologia política por meio da aproximação entre Ciência Política, Ciência da Computação e Data Science e contribua com o desenvolvimento da Ciência Política Computacional no Brasil. Na execução do projeto, além dos artefatos open-source que serão disponibilizados para a comunidade científica, espera-se que seja produzido um software de código fechado, objeto de proteção por patente junto à instituição-sede, considerando as normas e diretrizes da FAPESP.
Agência financiadora: FAPESP (Auxílio Regular 2022/03090-0)
Vigência: 01/03/2023 a 29/02/2028
Coordenadora na UFSCar: Profa. Dra. Sylvia Iasulaitis
Equipe de professores:
Prof. Dr. Alan Demétrius Baria Valejo (DC/UFSCar)
Prof. Dr. Soong Moon Kang
Profa. Dra. Helena de Medeiros Caseli (DC/UFSCar)
Profa. Dra. Eloize Rossi Marques Seno (IFSP/São Carlos)
Alunos do LALIC:
Leonardo Capellaro - aluno de Mestrado (PPGCC/UFSCar)
Leticia Bossatto Marchezi - aluna de Iniciação Científica (DC/UFSCar)
William Tsuyoshi Matsuda - aluno de Iniciação Científica (DC/UFSCar)
Fábio Seyiji Igarashi Anno - aluno voluntário (IFSP/São Carlos)
Fabiano Manoel Rocha Junior - aluno de Iniciação Científica (IFSP/São Carlos)
Arthur Braga da Fonseca - aluno de Iniciação Científica (DC/UFSCar)
Laura Pessine Teixeira - aluna de Iniciação Científica (DC/UFSCar)
Luiz Henrique do Nascimento Silva - aluno de Iniciação Científica (IFSP)
Léo Freitas - aluno de Iniciação Científica (IFSP)
Alexandra Bujokas Siqueira - aluna de Pós-doutorado (DC/UFSCar)
Publicações da equipe do LALIC relacionadas a este projeto:
MATSUDA, W. T.; CASELI, H. M.; VALEJO, A. D. B.; IASULAITIS, S. Câmaras de eco políticas durante os atos antidemocráticos: topologia de interação no Twitter/X. P2P e Inovação, v. 11, n. 2. 2025. Disponível em: https://revista.ibict.br/p2p/article/view/7398
SENO, E.; SILVA, L.; ANNO, F.; ROCHA, F.; CASELI, H. Aspect-based sentiment analysis in comments on political debates in Portuguese: evaluating the potential of ChatGPT. In: Proceedings of the 16th International Conference on Computational Processing of Portuguese, p. 312-320, Santiago de Compostela, Galicia/Spain. Disponível em: https://aclanthology.org/2024.propor-1.32/
WICK-PEDRO, G.; SILVA, C. F.; INÁCIO, M. L.; VALE, O. A.; CASELI, H. M. Using Large Language Models for Identifying Satirical News in Brazilian Portuguese. In: Proceedings of the 16th International Conference on Computational Processing of Portuguese, p. 156-167, Santiago de Compostela, Galicia/Spain. Disponível em: https://aclanthology.org/2024.propor-1.16/
"As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
Breve descrição: A depressão causa sofrimento clinicamente significativo e/ou prejuízo no funcionamento social do indivíduo. Há consenso na área da saúde que, nesses casos, é preciso oferecer um modelo de atenção amplo, não restrito ao fármaco. Nesse contexto, tem-se buscado criar soluções que possam apoiar o diagnóstico e as intervenções para pessoas com possível perfil depressivo (PPD), analisando o comportamento delas na Internet, mais especificamente em Redes Sociais Online (RSO). As pesquisas atuais adotam análise de texto para tentar identificar pessoas com PPD em RSO. No entanto, PPD podem intencionalmente alterar o texto para gerar um impacto social desejado. Um dos desafios científicos deste projeto é combinar a análise textual das postagens em RSO com sinais fisiológicos e escalas de avaliação psicométrica visando uma identificação de PPD mais precisa. Além da identificação, entende-se que as opções de interação oferecidas em RSO poderiam ser exploradas como canais de intervenção personalizada por uma solução computacional capaz de dialogar com PPD. Assim, este projeto visa, por meio de uma abordagem de pesquisa quali-quanti, investigar uma nova solução em computação para a Internet, que identifique usuários brasileiros com PPD e fornecer e testar clinicamente uma intervenção autônoma, especializada e personalizada via RSO. Essa solução se materializa como uma infraestrutura computacional e pressupõe a construção de um modelo multifatorial para a identificação e um modelo de intervenção que explora além do texto, mídias que fazem sentido em RSO como imagem e música.
Agência financiadora: FAPESP (Auxílio Regular 2020/05157-9: 01/04/2021 a 31/09/2023)
Coordenadora na UFSCar: Profa. Dra. Vânia Paula de Almeida Neris (04 a 07/2021 e a partir de 09/2022) e Profa. Dra. Helena de Medeiros Caseli (08/2021 a 08/2022)
Equipe de professores:
Prof. Dr. Jair Borges Barbosa Neto - professor (DMed/UFSCar)
Profa. Dra. Taís Bleicher - professora (DPsi/UFSCar)
Profa. Dra. Vivian Genaro Motti - professora (George Mason University, EUA)
Profa. Dra. Heloisa Cristina Figueiredo Frizzo - professora (UFTM)
Prof. Dr. Luciano de Oliveira Neris - professor (DC/UFSCar)
Prof. Dr. Hélio Crestana Guardia (DC/UFSCar)
Profa. Dra. Larissa Campagna Martini Barbosa (DMed/UFSCar)
Alunos do LALIC:
Augusto Rozendo Mendes (2020-2021) - aluno de Iniciação Científica (DC/UFSCar) e mestrado (PPGCC/UFSCar)
Rafael Vinicius Polato Passador (2021-2022) - aluno de Iniciação Científica (DC/UFSCar)
Publicações da equipe do LALIC neste projeto:
MENDES, A. R.; CASELI, H. M. Identifying Fine-grained Depression Signs in Social Media Posts. In: Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 8594–8604, Torino, Italy. ELRA and ICCL. https://aclanthology.org/2024.lrec-main.754/
MENDES, Augusto Rozendo. Detecção automática de postagens possivelmente depressivas em redes sociais. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15174 .
MENDES, Augusto R.; PASSADOR, Rafael V. P.; CASELI, Helena M.. Identificando sintomas de depressão em postagens do Twitter em português do Brasil. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 162-171. DOI: https://doi.org/10.5753/stil.2021.17795.
"As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
(2022-2023)
Breve descrição: A Embrapa é uma empresa brasileira, criada em 1973, que tem como foco a geração de conhecimentos e tecnologias para a agropecuária brasileira. Grande parte do conhecimento produzido pela Embrapa ao longo de quase 50 anos está disponível em textos, ou seja, informação não estruturada. Esse Projeto visa a construção de produtos linguístico-computacionais que mapearão o conhecimento terminológico no domínio agropecuário. Nesse contexto, as técnicas e métodos propostos na área de Processamento de Língua Natural (PLN), Aprendizado de Máquina (AM) e, em especial, redes neurais artificiais, surgem como uma alternativa para extrair dos textos o conhecimento necessário para embasar ou alimentar os sistemas inteligentes. O processamento mais inteligente dessas informações pode garantir a precisão no reconhecimento e classificação de textos, em tarefas como similaridade textual e extração de termos, fundamentais para a melhoria dos processos de gestão da informação e conhecimento da Embrapa.
Agência financiadora: CNPq (01/10/2022 a 30/09/2023)
Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
Equipe de professores:
Prof. Dr. Leandro Henrique Mendonça de Oliveira (Embrapa)
Alunos do LALIC:
Luana de Queiroz Garcia
Miguel Henrique Chinellato
(2020-2023)
Breve descrição: Um dos grandes desafios atuais, tanto para a indústria quanto para a academia, é o processamento eficaz de quantidades cada vez maiores de informação para transformá-la em conhecimento. Essa informação geralmente é veiculada na forma de textos em língua natural (português, inglês, espanhol, etc.) ou recursos visuais (imagens e vídeos, por exemplo). Trata-se, portanto, de uma fonte rica de conhecimento útil para aplicações e sistemas computacionais inteligentes, geralmente obtidos via Aprendizado de Máquina (AM). No que se refere ao tratamento de texto, a área de Processamento de Língua Natural (PLN) tem investigado, proposto e desenvolvido diversos métodos, recursos e ferramentas capazes de lidar com o conteúdo em língua natural. O Processamento de Imagens (PI) tem propósito similar no que tange a imagens e vídeos. Esse projeto visa trabalhar nessas três áreas -- AM, PLN e PI -- em um domínio específico, que é o do e-commerce. Esse projeto é uma parceria com a B2W Digital, empresa líder em comércio eletrônico na América Latina. A B2W opera por meio de uma plataforma digital, com negócios que apresentam forte sinergia e um modelo único, multicanal, multimarca e multinegócios. Nesse contexto, este projeto visa trabalhar em três frentes de pesquisa, todas relacionadas às informações referentes aos produtos à venda em sites de e-commerce: (1) extração e organização da informação sobre tais produtos, (2) processamento conjunto de informações em modalidades diferentes (texto e imagem) referentes a esses produtos, e (3) avaliação da qualidade da informação apresentada ao cliente. Para tanto, prevê-se que a equipe deste projeto seja composta por 3 docentes orientadores, 2 alunos de mestrado e 6 alunos de graduação, todos dos cursos de computação do DC/UFSCar, no desenvolvimento de 4 subprojetos.
Empresa parceira/financiadora: B2W Digital (agora americanas s.a.)
Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
Equipe na UFSCar:
Prof. Dr. Daniel Lucrédio (2020-2022) - professor (DC/UFSCar)
Prof. Dr. Diego Furtado Silva (2020-2022) - professor (DC/UFSCar)
Alan da Silva Romualdo (2020-2022) - mestrando do PPGCC/UFSCar (estagiário B2W Digital)
João Gabriel Melo Barbirato (2020-2022) - mestrando do PPGCC/UFSCar (estagiário B2W Digital)
Bruno Silva Sette (2020-2023) - doutorando do PPGCC/UFSCar (colaborador americanas s.a.)
Fernando Rezende Zagatti (2020-2023) - doutorando do PPGCC/UFSCar (colaborador americanas s.a.)
Lucas Nildaimon dos Santos Silva (2020-2023) - doutorando do PPGCC/UFSCar (colaborador americanas s.a.)
Alcides Mignoso e Silva (2020) - graduando do DC/UFSCar (membro da equipe do Projeto Integrador Extensionista de Extração de Atributos)
Wesley Galvão (2021) - graduando do DC/UFSCar (membro da equipe do Projeto Integrador Extensionista de Extração de Atributos)
Bianca Moreira Lopes (2020-2021) - graduanda do DL/UFSCar (membro da equipe do Projeto Integrador Extensionista de Extração de Atributos)
Karina Mayumi Johansson (2020-2021) - graduanda do DC/UFSCar (membro da equipe do Projeto Integrador Extensionista de Extração de Atributos)
Fernanda Malheiros Assi (2020-2021) - graduanda do DC/UFSCar (membro da equipe do Projeto Integrador Extensionista de Avaliação de Títulos de Produtos)
Julia Trovó Caetano de Jesus (2020-2021) - graduanda do DL/UFSCar (membro da equipe do Projeto Integrador Extensionista de Avaliação de Títulos de Produtos)
Reynold Navarro Mazo (2020-2021) - graduando do DC/UFSCar (membro da equipe do Projeto Integrador Extensionista de Avaliação de Títulos de Produtos)
(2016-2018)
Breve descrição: Com a disponibilização cada vez maior de informação na web, o processamento e a recuperação de informação textual e visual são atividades imprescindíveis na geração automática de conhecimento. Como a maior parte da informação disponibilizada na web é composta de texto em língua natural e de imagens, processá-los de modo "inteligente" envolve, necessariamente, o entendimento (a interpretação) do significado da informação que eles transmitem. Uma das formas mais utilizadas para representação do conteúdo semântico é a representação semântica distribuída, a qual está baseada na hipótese distribucional que estabelece que o sentido de uma palavra é dado por seu contexto de ocorrência. Embora a fonte principal para extração de conhecimento semântico usando a hipótese distribucional sejam os corpora, outras fontes de informação extralinguísticas, como imagens, também devem ser levadas em consideração. A combinação de múltiplas fontes de informação na geração de representações semânticas é denominada representação semântica distribuída multimodal. A essa nova linha de investigação soma-se o recente interesse nos modelos de representação distribuída baseados em redes neurais, também conhecidos como modelos de aprendizado profundo (deep learning). Nesse contexto, este projeto visa investigar o uso de fontes diversas de conhecimento, como textos paralelos/comparáveis e imagens, na modelagem semântica distribuída de textos em língua natural a fim de enriquecer as informações utilizadas em aplicações de Processamento de Língua Natural e Recuperação de Informação.
Agência financiadora: FAPESP (Auxílio Regular 2016/13002-0: 01/10/2016 a 31/10/2018)
Coordenadora: Profa. Dra. Helena de Medeiros Caseli
Equipe:
Profa. Dra. Eloize Rossi Marques Seno (2016-2018) - professora (IFSP/São Carlos)
Prof. Dr. Jander Moreira (2016-2018) - professor (DC/UFSCar)
Pablo Botton da Costa (2016) - mestrando do PPGCC/UFSCar
Wellington Cristiano Veltroni (2016-2018) - mestrando do PPGCC/UFSCar (bolsista CNPq)
Natalie Lourenço Vargas (2016-2018) - mestranda do PPGCC/UFSCar (bolsista CNPq)
Cristiano Ornelas Ribeiro (2016) - aluno de Iniciação Científica (DC/UFSCar)
Lucas Hochleitner da Silva (2016-2017) - aluno de Iniciação Científica (DC/UFSCar)
Miguel Gonçalves Vieira (2016-2018) - aluno de Iniciação Científica (DC/UFSCar)
Clarissa Lenina Scandarolli (2016-2017) - aluno de Iniciação Científica (DEE/UFSCar)
Fernando Tadao Ito (2016-2018) - mestrando do PPGCC/UFSCar (bolsista CNPq)
Jéssica Rodrigues da Silva (2016-2018) - mestranda do PPGCC/UFSCar
Márcio Lima Inácio (2017-2018) - aluno de Iniciação Científica (DC/UFSCar)
Tulio Reis Carvalho (2017-2018) - aluno de Iniciação Científica (DC/UFSCar)
Cássio Faria da Silva (2017-2018) - doutorando do PPGCC/DC/UFSCar
Antônio Manoel dos Santos Almeida Neto (2018) - mestrando do PPGCC/DC/UFSCar
João Gabriel Melo Barbirato (2018) - aluno de Iniciação Científica (DC/UFSCar)
"As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
(2014-2017)
Breve descrição: This project aims to investigate techniques, resources and protocols for evaluating and integrating models of multiword expression (MWE) processing into machine translation and automatic speech recognition technology. MWEs like nominal compounds (machine learning, weapons of mass destruction) and verb particle constructions (break down, clear up) are a challenge for current language technology. They often require additional knowledge for correct computational interpretation due to their often opaque and idiomatic semantics. For instance, failing to recognize that an MWE like kick the bucket needs to be interpreted as a unit (to die) may lead to incorrect translations. The AIM WEST project addresses the automatic treatment of MWEs focusing on Portuguese, English and French, and on Portuguese↔English, French↔English and Portuguese↔French translation. The main contribution of the project will be the development of enabling multilingual human machine interfaces that can take into account such complex phenomena as MWEs.
Agência financiadora: FAPESP (Auxílio 2013/50757-0: 01/03/2014 a 28/02/2017)
Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
Equipe na UFSCar:
Profa. Dra. Eloize Rossi Marques Seno (2014-2017) - professora (IFSP/São Carlos)
Pablo Botton da Costa (2015-2016) - mestrando do PPGCC/UFSCar (bolsista CNPq)
Natalie Lourenço Vargas (2016-2017) - mestranda do PPGCC/UFSCar (bolsista CNPq)
Prof. Dr. Estevam Rafael Hruschka Júnior (2014-2015) - professor (DC/UFSCar)
Paulo Henrique Barchi (2014-2015) - mestrando do PPGCC/UFSCar
MSc. Débora Martins (2015-2016) - mestre (ex-aluna do PPGCC/UFSCar)
Thiago Lima Vieira (2012-2016) - ex-aluno do PPGCC/UFSCar
MSc. Leonardo Sameshima Taba (2013-2014) - mestre (ex-aluno do PPGCC/UFSCar)
Paulo César Polastri (2013-2016) - mestrando do PPGCC/UFSCar
Alexandre Coelho Rondon (2014) - graduando (TCC DC/UFSCar)
Cristiano Ornelas Ribeiro (2013-2014) - aluno de Iniciação Científica (voluntário)
Gleno Mário Pinheiro da Silva Mendes (2015) - graduando (CAPES/Jovens Talentos)
Rafael Oliveira Teixeira (2015) - graduando (PET/IFSP/São Carlos)
"As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
(2014-2016)
Breve descrição: Esta Atividade de Extensão tem como objetivo aplicar técnicas de inteligência artificial e aprendizado de máquina para processar informações sobre produtos em páginas Web de e-commerce. A maior parte da informação online é veiculada em língua natural e acompanhada de imagens. O processamento automático e inteligente destas informações faz-se necessário para extrair delas conhecimento útil para desenvolvimento de sistemas inteligentes. Para tanto, nesta atividade serão investigadas, propostas e implementadas ferramentas capazes de extrair conhecimento de texto em língua natural e imagens disponíveis em páginas de descrição de produtos.
Empresa parceira/financiadora: Boo
Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
Equipe na UFSCar:
Prof. Dr. Jander Moreira (2014-2016) - professor (DC/UFSCar)
Fernando Tadao Ito (2015-2016) - mestrando do PPGCC/UFSCar (estagiário Boo)
Lucas Hochleitner da Silva (2014-2016) - aluno de Iniciação Científica (estagiário Boo)
Cristiano Ornelas Ribeiro (2015-2016) - aluno de Iniciação Científica (estagiário Boo)
Miguel Gonçalves Vieira (2015-2016) - aluno de Iniciação Científica
Márcio Lima Inácio (2014-2015) - aluno de Iniciação Científica (estagiário Boo)
Leonardo Henrique Tozzatto Volpe (2014-2016) - aluno de Iniciação Científica (estagiário Boo)
(2014-2016)
Breve descrição: The objective of the project is the development of tools for the syntactico-semantic analysis of Spanish and Portuguese. To do this, we aim to build a framework to integrate the different capabilities and resources of the groups involved. In particular, we want to integrate different lines of work on compositional semantics and enriched lexica: the Lexicon-Grammar tables, verbal subcategorization frames, multiword expressions, grammatical formalisms with enough expressivity to integrate this information, and learning mechanisms capable of building complex models from examples at these levels of analysis.
Agência financiadora: CAPES (Auxílio Financeiro 047/14)
Coordenadora na UFSCar: Profa. Dra. Helena de Medeiros Caseli
Equipe na UFSCar:
Prof. Dr. Oto Araújo Vale - professor (Departamento de Letras/UFSCar)
Thiago Lima Vieira - mestrando do PPGCC/UFSCar (bolsista CNPq)
MSc. Débora Martins - doutoranda do PPGCC/UFSCar (bolsista CAPES)
Cristiano Ornelas Ribeiro - aluno de Iniciação Científica (voluntário)
Paulo César Polastri - mestrando do PPGCC/UFSCar
MSc. Leonardo Sameshima Taba - mestre (ex-aluno do PPGCC/UFSCar)
Alexandre Coelho Rondon - graduando (TCC DC/UFSCar)
Breve descrição: O reconhecimento automático de paráfrases e a tradução automática são duas subáreas do Processamento de Língua Natural (PLN) que compartilham semelhanças, como o fato de ambas lidarem com textos paralelos (textos que expressam o mesmo conteúdo) sejam eles monolíngues (no caso das paráfrases) ou bilíngues (no caso das traduções). Contudo, apenas recentemente alguns poucos estudos foram desenvolvidos explorando a combinação de métodos e técnicas dessas duas subáreas de PLN (BANNARD; CALLISON-BURCH, 2005; CALLISON-BURCH et al., 2006; BARREIRO, 2008; PANG et al., 2003). Neste projeto, visa-se investigar a extração automática de paráfrases e de conhecimento útil para a tradução automática usando a estratégia de aprendizado de máquina sem-fim (AMSF) e a web como fonte de conhecimento. Repositórios onlines de conhecimento como a Wikipédia, por exemplo, definem, explicam e exemplificam conhecimento de maneiras distintas. Repositórios onlines de legendas como OpenSubtitles e SubDB e letras de músicas como o Lyrics apresentam versões de um mesmo texto em vários idiomas. Esses repositórios são valiosas fontes de informação para os métodos de extração automática de paráfrases e de conhecimento útil para a tradução que serão projetados seguindo a estratégia de AMSF. O AMSF é uma estratégia de aprendizado de máquina recente baseada no aprendizado constante e incremental inspirada no modo como nós, humanos, aprendemos. A ideia do AMSF é que ao aprendermos conceitos simples e relações simples entre esses conceitos nós nos tornamos capazes de aprender, no futuro, algo novo e mais complexo (MITCHELL et al., 2008). Essa proposta é inovadora na aplicação de AMSF nas duas subáreas de PLN citadas e poderá dar origem a abordagens integradas contribuindo, assim, com o avanço nessas e outras áreas de pesquisa.
Agência financiadora: FAPESP (Auxílio Regular 2013/11811-0: 01/09/2013 a 31/08/2015)
Coordenadora: Profa. Dra. Helena de Medeiros Caseli
Equipe:
Profa. Dra. Eloize Rossi Marques Seno - professora (IFSP/São Carlos)
Profa. Dr. Estevam Rafael Hruschka Júnior - professor (DC/UFSCar)
Prof. Dr. Carlos Ramish - professor (Aix Marseille Université - França)
Thiago Lima Vieira - mestrando do PPGCC/UFSCar (bolsista CNPq)
MSc. Débora Martins - mestre (ex-aluna do PPGCC/UFSCar)
Cristiano Ornelas Ribeiro - aluno de Iniciação Científica (DC/UFSCar)
Paulo César Polastri - mestrando do PPGCC/UFSCar
MSc. Leonardo Sameshima Taba - mestre (ex-aluno do PPGCC/UFSCar)
Alexandre Coelho Rondon - graduando (TCC DC/UFSCar)
Rafael Oliveira Teixeira - graduando (PET/IFSP/São Carlos)
"As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
(2010-2012)
Breve descrição: Esse projeto pretende coletar, criar, implementar e avaliar recursos e ferramentas linguístico-computacionais que envolvam dois ou mais idiomas incluindo o português do Brasil. Tais ferramentas e recursos serão disponibilizados por meio de um Portal de TA sendo, dessa maneira, úteis para aplicações multilíngues como a Tradução Automática (TA).
Agência financiadora: FAPESP (Auxílio Regular 2010/07517-0: 01/08/2010 a 31/07/2012)
Coordenadora: Profa. Dra. Helena de Medeiros Caseli
Equipe:
Thiago Lima Vieira - bolsista de Treinamento Técnico (TT-3 - FAPESP)
Cleber Takahito Kawamorita - bolsista de Iniciação Científica (IC - FAPESP)
Débora Martins - bolsista de Mestrado (FAPESP)
Thiago Müller Albertin - bolsista de Iniciação Científica (IC - PIBIC)
"As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP"
(2008-2011)
Breve descrição: Esse projeto visava a investigação do uso de informação sintática em diferentes técnicas de tradução automática por meio da implementação ou adaptação e avaliação das mesmas envolvendo, em particular, o português do Brasil.
Agência financiadora: UFSCar (Programa Integrado de Apoio ao Docente Recém Doutor da UFSCar - PIADRD)
Coordenadora: Profa. Dra. Helena de Medeiros Caseli
Equipe:
Josué Garcia de Araújo - bolsista de Mestrado (CAPES)
Daniel Emílio Beck - bolsista de Mestrado (FAPESP)
Israel Aono Nunes - bolsista de Iniciação Científica (IC - PIADRD)
Laís Augusta da Silva Meuchi - bolsista de Iniciação Científica (IC - PIADRD)
Miguel Mêndola Antonio - bolsista de Iniciação Científica (IC - PIADRD)