Identificação e resolução de ambiguidades semânticas em língua portuguesa utilizando estatística
Identificação e resolução de ambiguidades semânticas em língua portuguesa utilizando estatística
<oquejr1307@gmail.com>
Há no mundo mais de 1 bilhão de
pessoas com algum tipo de deficiência. No Brasil, essa realidade corresponde a
cerca de 23,9% dos 190 milhões de brasileiros; entre estes, 9.6 milhões têm
alguma deficiência auditiva. A surdez dificulta consideravelmente a interação
social, uma vez que inibe o indivíduo de se comunicar através da via
oral-auditiva. Esses problemas de comunicação costumam prejudicar
consideravelmente a interação dos alunos surdos com colegas ouvintes,
prejudicando o processo de integração social. Para facilitar a comunicação
entre pessoas surdas e ouvintes, ferramentas de tradução automática
Português-Libras podem ser utilizadas. Porém, de acordo com relatos na
literatura, cerca de 75% da comunidade surda se sente insatisfeita com a
tradução e relata como as principais causas dessa insatisfação: (1) uso de
sinais inadequados para palavras com ambiguidade semântica (e.g., direito,
público); (2) a ausência de expressão facial; (3) não utilização de
modificadores da Libras, prejudicando a naturalidade da sinalização; e (4)
utilização de sinais não usuais em determinada região. Um dos principais
obstáculos na tradução eficiente de falas se encontra na ambiguidade, já que a
linguagem natural é, por natureza, ambígua e muitas vezes depende de contexto
para ser entendida, processos rígidos de tradução que focam apenas no contexto
léxico se tornam extremamente limitados, e a estatística entra como uma
alternativa para tornar tais métodos capazes de lidar com o contexto além do
nível léxico. Neste trabalho é abordado o Problema 1; para isso, é proposto o
aperfeiçoamento dos módulos de tradução do Sistema Falibras através da
identificação de ambiguidades através de estatística. Foi percebido um impacto
direto na melhoria da qualidade da tradução no tocante às críticas observadas
na literatura. Os principais objetivos do projeto proposto são: (1) conhecer o
estado da arte do processo de língua natural para resolução automática de
ambiguidades na língua portuguesa; (2) aperfeiçoar o módulo semântico do
tradutor para reconhecimento de ambiguidades em língua portuguesa; e (3)
avaliar as atividades através de um experimento piloto. Devido às dificuldades
enfrentadas decorrentes da pandemia, não foi possível avaliar a solução
conforme previsto originalmente, isto é, envolvendo a participação direta de
voluntários intérpretes. A avaliação da solução foi realizada de maneira
preliminar, pela própria equipe do projeto. Por essa razão, os artefatos de
software desenvolvidos ainda não foram totalmente validados e carecem de
ajustes importantes antes da sua disponibilização gratuita à comunidade.
There are more than 1 billion people
in the world with some form of disability. In Brazil, this reality corresponds
to about 23.9% of the 190 million Brazilians; among these, 9.6 million have
hearing impairment. Deafness considerably hinders social interaction, as it
inhibits the individual from communicating through the oral-auditory route. These
communication problems tend to considerably impair the interaction of deaf
students with hearing colleagues, impairing the process of social integration.
To facilitate communication between deaf and hearing people, Portuguese-Libras
machine translation tools can be used. However, according to reports in the
literature, about 75% of the deaf community feel dissatisfied with the
translation and report as the main causes of this dissatisfaction: (1) use of
inappropriate signs for words with semantic ambiguity (eg, law, public) ; (2)
the absence of facial expression; (3) non-use of Libras modifiers, harming the
naturalness of the signal; and (4) use of unusual signals in a given region.
One of the main obstacles in the efficient translation of speeches is found in
ambiguity, since natural language is, by nature, ambiguous and often depends on
context to be understood, rigid translation processes that focus only on the
lexical context become extremely limited, and statistics enters as an
alternative to make such methods capable of dealing with the context beyond the
lexical level. In this work, Problem 1 is addressed; for this, it is proposed
to improve the translation modules of the Falibras System through the
identification of ambiguities through statistics. A direct impact on improving
the quality of the translation was perceived in terms of the criticisms
observed in the literature. The main objectives of the proposed project are:
(1) to know the state of the art of the natural language process for automatic
resolution of ambiguities in the Portuguese language; (2) improve the
translator's semantic module to recognize ambiguities in Portuguese; and (3)
evaluate the activities through a pilot experiment. Due to the difficulties
faced due to the pandemic, it was not possible to evaluate the solution as
originally planned, that is, involving the direct participation of volunteer
interpreters. The evaluation of the solution was carried out in a preliminary
way, by the project team itself. For this reason, the developed software
artifacts have not yet been fully validated and need important adjustments
before being freely available to the community.
Me. Silva, Tércio de Morais Sampaio.
Tradução automática.
Língua Brasileira de Sinais (LIBRAS).
Língua portuguesa - Ambiguidade semântica.