Um estudo sobre o serviço IBM Watson para transcrições de áudio em texto
Um estudo sobre o serviço IBM Watson para transcrições de áudio em texto
<joao.farias@arapiraca.ufal.br>
Transcrever automaticamente áudio para texto pode ser bastante trabalhoso, pois, requer a interpretação de um arquivo de som e a construção de uma frase textual correspondente. De modo que a utilização de uma ferramenta tecnológica é vantajosa para otimizar o trabalho, além de ajudar pessoas com necessidades especiais que podem depender de uma ferramenta para escrever por elas, isso resulta numa solução descomplicada para contemplar muitas pessoas. Dessa forma, é possível tornar essa solução menos complicada com o uso do serviço IBM Watson, que pode capturar o som e convertê-lo em texto com uma certa precisão. Isso se devà evolução da tecnologia relacionada ao reconhecimento automático de fala, que se denomina pelos algoritmos complexos de Inteligência Artificial baseados em técnicas relacionadas ao processo de aprendizagem. À vista disso, o presente trabalho tem como objetivo analisar a ferramenta da IBM, observando se ela atende às necessidades de automação, inclusão de pessoas com necessidades especiais, simples utilização, além de apresentar questões relacionadas à qualidade e eficiência. Nos resultados foram apontados dados extraídos do experimento, como a precisão das palavras nas gravações em inglês e português, a taxa de confiança, similaridade, o tempo de resposta para o resultado das transcrições, além de um exemplo comparativo entre o texto original e o texto transcrito para a resposta obtida tanto na transcrição com áudio na língua inglesa, como na língua portuguesa. Isto posto, foi concluído que o serviço apresentou um reconhecimento automático de fala promissor e relevante para ser trabalhado, devido ao bom funcionamento e por ser útil para projetos e pessoas que necessitam da extração automática de texto.
Automatically transcribing audio to text can be quite laborious, as it requires interpreting a sound file and constructing a corresponding text sentence. So the use of a technological tool is advantageous for optimizing the work, as well as helping people with special needs who may depend on a tool to write for them, this results in an uncomplicated solution for many people. Itis possible to make this solution less complicated by using the IBM
Watson service, which cancapture sound
and convert it into text with a certain precision. This is due to the evolution
oftechnology related to automatic speech
recognition, which is called by the complex algorithmsof Artificial Intelligence based on techniques related
to the learning process. In view of this, thepresent work aims to analyze IBM’s tool, observing whether it meets the
needs of automation,inclusion of people
with special needs, simple use, besides presenting issues related to qualityand efficiency. In the results, data extracted
from the experiment were pointed out, such as theaccuracy of the words in the English and Portuguese
recordings, the confidence rate, similarity,the response time for the result of the transcriptions, as well as a
comparative example betweenthe original
text and the transcribed text for the response obtained both in the
transcription withaudio in English and
in Portuguese. That said, it was concluded that the service presented apromising and relevant automatic speech recognition to
be worked on, due to its good functioningand
for being useful for projects and people who need automatic text extraction.
Me. Silva, Ítalo Carlo Lopes.
IBM Watson.
Transcrição de áudio.
Speech to text..