Formação
(2014-2018) Graduado em Ciência da Computação
Universidade Federal de São Carlos (UFSCar)
Projetos no LALIC
2018
Título do projeto: Pós-edição automática e semanticamente motivada de traduções em português do Brasil
Nível: Trabalho de Conclusão de Curso
Publicação derivada deste projeto:
Inácio, M. L. Pós-edição automática e semanticamente motivada de traduções em português do Brasil. Monografia de Trabalho de Conclusão de Curso de Graduação em Ciência da Computação, UFSCar (Universidade Federal de São Carlos), São Carlos, Brasil. 93 p. (2018) PDF
2017-2018
Título do projeto: Pós-edição automática e semanticamente motivada de traduções em português do Brasil
Nível: Iniciação Científica
Breve descrição: A Tradução Automática (TA) é uma das aplicações (e subáreas) mais importantes do Processamento de Línguas Naturais (PLN). Na TA, sistemas computacionais são utilizados para gerar uma versão equivalente, em um idioma alvo, de um texto fornecido como entrada, em um idioma fonte. Após mais de 70 anos de pesquisas em TA e de várias abordagens terem sido propostas e aplicadas -- como a TA baseada em regras, a TA estatística e a TA neural -- ainda não foi possível alcançar as ambiciosas metas de seu surgimento: produzir traduções completamente automáticas de boa qualidade para domínios irrestritos. Por isso, as traduções geradas automaticamente são, via de regra, pós-editadas por humanos para que se tornem corretas e fluentes na língua alvo. Contudo, a pós-edição manual é um processo árduo e que demanda esforço especializado. Nesse contexto, diversas propostas para automatização da pós-edição têm surgido nos últimos anos. Neste projeto visa-se investigar especificamente a pós-edição automática baseada em conhecimento semântico. Uma das formas mais tradicionais de representação de semântica textual se baseia na hipótese distribucional a qual considera o contexto de ocorrência das palavras. Essas informações de contexto podem ser mapeadas nos chamados modelos de semântica distribucional (do inglês, distributional semantic models ou DSMs). Nos DSMs, as palavras são representadas como vetores em um espaço de alta dimensão que relaciona palavras com seus contextos de ocorrência. Assim, este projeto visa verificar como os DSMs podem ser aplicados para a pós-edição automática da TA. Esta proposta está vinculada ao projeto MMeaning (Auxílio Regular FAPESP #2016/13002-0).
Agência financiadora: FAPESP (2016/21317-0)
Orientadora: Profa. Dra. Helena de Medeiros Caseli
2015
Título do projeto: Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce
Nível: Iniciação Científica
Breve descrição: Esse projeto de Iniciação Científica tem como objetivo a geração de uma ferramenta de etiquetação morfossintática capaz de processar textos em português em páginas de e-commerce.
Empresa financiadora: Boo
Orientadora: Profa. Dra. Helena de Medeiros Caseli