Todos os anos, o Exame Nacional do Ensino Médio (Enem) mobiliza milhões de estudantes que buscam uma vaga na universidade. Além de testar o conhecimento dos jovens a prova também foi utilizada para testar a eficiência na compreensão de textos de técnicas de inteligência artificial. Os testes foram feitos pelo mestrando Igor Cataneo Silveira do Instituto de Matemática e Estatística da USP – IME e provaram a eficiência de sistemas de chatbots existentes no mercado.
Disponíveis em atendimentos automatizados on-line, os chatbots simulam uma conversa real e substituem atendentes especializados. Segundo o professor Denis Mauá, orientador da pesquisa, o objetivo do estudo foi realizar testes para identificar quais técnicas estão mais próximas de apresentar um comportamento humano. A máquina deve saber extrair informações de forma satisfatória de quem interage com ela. “Um dos pré-requisitos esperado é que a máquina tenha a capacidade de manter uma conversa. Não necessariamente enganar um humano, mas ele deve conseguir conversar de forma prazerosa e ágil”, explica o especialista em inteligência artificial.
Entender e responder de forma quase humana não é tarefa simples. São necessárias habilidades distintas que nem sempre são contempladas igualmente na programação. Algumas técnicas de chatbot podem entender os questionamentos, mas gerar respostas ruins e outras serem evasivas pela falta de compreensão e gerar respostas que se encaixam perfeitamente. Um exemplo é o sistema Elisa, criado para simular um psicanalista. Ao criar respostas utilizando palavras-chave da interação, o sistema era capaz de criar novas perguntas sem realmente compreender o texto analisado.
A prova do Enem foi escolhida por apresentar questões mais difíceis de serem resolvidas utilizando somente a base de dados de enciclopédia. Os enunciados interdisciplinares não têm distinção clara de tema e testam muito mais a capacidade de raciocínio e compreensão, habilidades ideais para entender as técnicas de forma objetiva. Para o professor, as habilidades testadas pelo exame são exatamente as estruturas deficientes dos computadores atuais. “Eles vão muito mal no óbvio, em conhecimentos genéricos e de senso comum”, explica.
Na busca do sistema de compreensão textual perfeito, os pesquisadores puderam constatar que as máquinas apresentam um desempenho muito abaixo do esperado de um estudante médio, mas mesmo assim, em muitos casos, os resultados foram surpreendentes com algumas chegando a 30% de acertos, e possibilitaram a indicação de algumas melhorias nas técnicas atuais para a melhoria da compreensão textual.
O professor, ainda, lembra que o mais famoso dos testes para detectar o comportamento humano de máquinas é o teste de Turing, criado pelo pai da computação Alan Turing. Nesse teste, humano e máquina interagem por meio de mensagens e o humano deve saber distinguir se estava se comunicando ou não com uma máquina. Para Turing, o importante era detectar se o computador podia se expressar ou não como um humano. Segundo Mauá, na prática o teste de Turing é ignorado por não apresentar informações mais detalhadas de semelhança entre máquinas e humanos. “Ele é um teste sim ou não. Ou você é ou não é. Em geral queremos saber se a técnica se assemelha, 10%, 20% ou 30% de um comportamento humano”, comenta.
Como próximo passo, os pesquisadores querem trabalhar com técnicas mais complexas que possam entender não só as palavras do texto, mas, também, a estrutura estabelecida, encaminhando o processo para máquinas que compreendam de forma quase humana os textos. “Muitas técnicas não têm esse conhecimento de estrutura. Podemos bagunçar as palavras e elas entenderam da mesma forma. Não há uma leitura da estrutura. Agora vamos olhar para técnicas que também tentam extrair conhecimento da estrutura”.
Faça um comentário