Identificação e resolução de ambiguidades semânticas em língua portuguesa utilizando estatística

Costa Júnior, Roque Barbosa da

Autor(a)

Costa Júnior, Roque Barbosa da.
<oquejr1307@gmail.com>

Ano de publicação

2022

Data da defesa

22/02/2022

Curso/Outros

Ciência da Computação

Número de folhas

19

Tipo

TCC - Trabalho de Conclusão de Curso

Local

UFAL, Campus Arapiraca, Unidade Educacional ARAPIRACA

Resumo

Há no mundo mais de 1 bilhão de pessoas com algum tipo de deficiência. No Brasil, essa realidade corresponde a cerca de 23,9% dos 190 milhões de brasileiros; entre estes, 9.6 milhões têm alguma deficiência auditiva. A surdez dificulta consideravelmente a interação social, uma vez que inibe o indivíduo de se comunicar através da via oral-auditiva. Esses problemas de comunicação costumam prejudicar consideravelmente a interação dos alunos surdos com colegas ouvintes, prejudicando o processo de integração social. Para facilitar a comunicação entre pessoas surdas e ouvintes, ferramentas de tradução automática Português-Libras podem ser utilizadas. Porém, de acordo com relatos na literatura, cerca de 75% da comunidade surda se sente insatisfeita com a tradução e relata como as principais causas dessa insatisfação: (1) uso de sinais inadequados para palavras com ambiguidade semântica (e.g., direito, público); (2) a ausência de expressão facial; (3) não utilização de modificadores da Libras, prejudicando a naturalidade da sinalização; e (4) utilização de sinais não usuais em determinada região. Um dos principais obstáculos na tradução eficiente de falas se encontra na ambiguidade, já que a linguagem natural é, por natureza, ambígua e muitas vezes depende de contexto para ser entendida, processos rígidos de tradução que focam apenas no contexto léxico se tornam extremamente limitados, e a estatística entra como uma alternativa para tornar tais métodos capazes de lidar com o contexto além do nível léxico. Neste trabalho é abordado o Problema 1; para isso, é proposto o aperfeiçoamento dos módulos de tradução do Sistema Falibras através da identificação de ambiguidades através de estatística. Foi percebido um impacto direto na melhoria da qualidade da tradução no tocante às críticas observadas na literatura. Os principais objetivos do projeto proposto são: (1) conhecer o estado da arte do processo de língua natural para resolução automática de ambiguidades na língua portuguesa; (2) aperfeiçoar o módulo semântico do tradutor para reconhecimento de ambiguidades em língua portuguesa; e (3) avaliar as atividades através de um experimento piloto. Devido às dificuldades enfrentadas decorrentes da pandemia, não foi possível avaliar a solução conforme previsto originalmente, isto é, envolvendo a participação direta de voluntários intérpretes. A avaliação da solução foi realizada de maneira preliminar, pela própria equipe do projeto. Por essa razão, os artefatos de software desenvolvidos ainda não foram totalmente validados e carecem de ajustes importantes antes da sua disponibilização gratuita à comunidade.

Abstract

There are more than 1 billion people in the world with some form of disability. In Brazil, this reality corresponds to about 23.9% of the 190 million Brazilians; among these, 9.6 million have hearing impairment. Deafness considerably hinders social interaction, as it inhibits the individual from communicating through the oral-auditory route. These communication problems tend to considerably impair the interaction of deaf students with hearing colleagues, impairing the process of social integration. To facilitate communication between deaf and hearing people, Portuguese-Libras machine translation tools can be used. However, according to reports in the literature, about 75% of the deaf community feel dissatisfied with the translation and report as the main causes of this dissatisfaction: (1) use of inappropriate signs for words with semantic ambiguity (eg, law, public) ; (2) the absence of facial expression; (3) non-use of Libras modifiers, harming the naturalness of the signal; and (4) use of unusual signals in a given region. One of the main obstacles in the efficient translation of speeches is found in ambiguity, since natural language is, by nature, ambiguous and often depends on context to be understood, rigid translation processes that focus only on the lexical context become extremely limited, and statistics enters as an alternative to make such methods capable of dealing with the context beyond the lexical level. In this work, Problem 1 is addressed; for this, it is proposed to improve the translation modules of the Falibras System through the identification of ambiguities through statistics. A direct impact on improving the quality of the translation was perceived in terms of the criticisms observed in the literature. The main objectives of the proposed project are: (1) to know the state of the art of the natural language process for automatic resolution of ambiguities in the Portuguese language; (2) improve the translator's semantic module to recognize ambiguities in Portuguese; and (3) evaluate the activities through a pilot experiment. Due to the difficulties faced due to the pandemic, it was not possible to evaluate the solution as originally planned, that is, involving the direct participation of volunteer interpreters. The evaluation of the solution was carried out in a preliminary way, by the project team itself. For this reason, the developed software artifacts have not yet been fully validated and need important adjustments before being freely available to the community.

Orientador(a)

Dr. Brito, Patrick Henrique da Silva.

Banca Examinadora

Me. Santos, Alexandre Paes dos.
Me. Silva, Tércio de Morais Sampaio.

Palavras-chave

Sistema FALIBRAS.
Tradução automática.
Língua Brasileira de Sinais (LIBRAS).
Língua portuguesa - Ambiguidade semântica.

Áreas do Conhecimento/Localização

Coleção Propriedade Intelectual (CPI) - BSCA.

Categorias CNPQ

1.00.00.00-3 Ciências exatas e da terra.

Anexos

Identificação e resolução de ambiguidades semânticas em língua portuguesa utilizando estatística.pdf

Visualizações

710

Observações