Um estudo sobre o serviço IBM Watson para transcrições de áudio em texto

Um estudo sobre o serviço IBM Watson para transcrições de áudio em texto

Autor(a)
Farias, João Marcos Oliveira.
<joao.farias@arapiraca.ufal.br>
Ano de publicação
2022
Data da defesa
25/02/2021
Curso/Outros
Ciência da Computação
Número de folhas
30
Tipo
TCC - Trabalho de Conclusão de Curso
Local
UFAL, Campus Arapiraca, Unidade Educacional ARAPIRACA
Resumo

Transcrever automaticamente áudio para texto pode ser bastante trabalhoso, pois, requer a interpretação de um arquivo de som e a construção de uma frase textual correspondente. De modo que a utilização de uma ferramenta tecnológica é vantajosa para otimizar o trabalho, além de ajudar pessoas com necessidades especiais que podem depender de uma ferramenta para escrever por elas, isso resulta numa solução descomplicada para contemplar muitas pessoas. Dessa forma, é possível tornar essa solução menos complicada com o uso do serviço IBM Watson, que pode capturar o som e convertê-lo em texto com uma certa precisão. Isso se devà evolução da tecnologia relacionada ao reconhecimento automático de fala, que se denomina pelos algoritmos complexos de Inteligência Artificial baseados em técnicas relacionadas ao processo de aprendizagem. À vista disso, o presente trabalho tem como objetivo analisar a ferramenta da IBM, observando se ela atende às necessidades de automação, inclusão de pessoas com necessidades especiais, simples utilização, além de apresentar questões relacionadas à qualidade e eficiência. Nos resultados foram apontados dados extraídos do experimento, como a precisão das palavras nas gravações em inglês e português, a taxa de confiança, similaridade, o tempo de resposta para o resultado das transcrições, além de um exemplo comparativo entre o texto original e o texto transcrito para a resposta obtida tanto na transcrição com áudio na língua inglesa, como na língua portuguesa. Isto posto, foi concluído que o serviço apresentou um reconhecimento automático de fala promissor e relevante para ser trabalhado, devido ao bom funcionamento e por ser útil para projetos e pessoas que necessitam da extração automática de texto.

 

Abstract

Automatically transcribing audio to text can be quite laborious, as it requires interpreting a sound file and constructing a corresponding text sentence. So the use of a technological tool is advantageous for optimizing the work, as well as helping people with special needs who may depend on a tool to write for them, this results in an uncomplicated solution for many people. Itis possible to make this solution less complicated by using the IBM Watson service, which cancapture sound and convert it into text with a certain precision. This is due to the evolution oftechnology related to automatic speech recognition, which is called by the complex algorithmsof Artificial Intelligence based on techniques related to the learning process. In view of this, thepresent work aims to analyze IBM’s tool, observing whether it meets the needs of automation,inclusion of people with special needs, simple use, besides presenting issues related to qualityand efficiency. In the results, data extracted from the experiment were pointed out, such as theaccuracy of the words in the English and Portuguese recordings, the confidence rate, similarity,the response time for the result of the transcriptions, as well as a comparative example betweenthe original text and the transcribed text for the response obtained both in the transcription withaudio in English and in Portuguese. That said, it was concluded that the service presented apromising and relevant automatic speech recognition to be worked on, due to its good functioningand for being useful for projects and people who need automatic text extraction.

Orientador(a)
Me. Oliveira, Rômulo Nunes de.
Banca Examinadora
Dr. Barbosa, Alexandre de Andrade.
Me. Silva, Ítalo Carlo Lopes.
Palavras-chave
Inteligência artificial.
IBM Watson.
Transcrição de áudio.
Speech to text..
Áreas do Conhecimento/Localização
Coleção Propriedade Intelectual (CPI) - BSCA.
Categorias CNPQ
1.00.00.00-3 Ciências exatas e da terra.
Visualizações
425
Observações


Não foi possível exibir o PDF