São Paulo, 05653-160, BR
+5516997272793

Processo de fala e Língua

Marketplace no WhatsApp e Messenger

Processo de fala e Língua

(Texto adaptado e traduzido para o português do Livro Jurafsky)

Introdução

Dave Bowman: Abra as portas da baía do pod, HAL.

HAL: desculpe, Dave, tenho medo de não poder fazer isso.

Stanley Kubrick e Arthur C. Clarke,

roteiro de 2001: uma odisseia espacial

A idéia de dar aos computadores a capacidade de processar a linguagem humana é  tão antiga quanto a idéia dos próprios computadores. Este livro trata da implementação e implicações de essa ideia emocionante. Apresentamos um campo interdisciplinar vibrante com muitos nomes correspondentes para suas muitas facetas, nomes como processamento de fala e linguagem, humanos tecnologia de linguagem, processamento de linguagem natural, linguística computacional e reconhecimento e síntese de fala. O objetivo deste novo campo é conseguir computadores para realizar tarefas úteis envolvendo linguagem humana, tarefas como permitir a comunicação máquina humana, melhoria da comunicação humano-humano ou simplesmente processamento útil de texto ou fala.

Agente de conversação

Um exemplo de uma tarefa útil é um agente conversacional. O computador HAL 9000 no filme de Stanley Kubrick 2001: A Space Odyssey é um dos personagens mais reconhecidos no cinema do século XX. HAL é um agente artificial capaz de um comportamento linguístico tão avançado, falando e compreendendo o inglês, e em um momento crucial da trama, até mesmo lendo os lábios. Agora está claro que o criador da HAL, Arthur C. Clarke, estava um pouco otimista na previsão de um agente artificial como o HAL estaria disponível. Mas o quão longe ele estava? O que seria necessário para criar, pelo menos, as partes línguas de HAL? Chamamos programas como HAL que conversam com seres humanos em condições naturais

Sistema de diálogo

Agentes conversacionais de linguagem ou sistemas de diálogo. Neste texto, estudamos os vários componentes que compõem agentes conversacionais modernos, incluindo entrada de idiomas (reconhecimento automático de fala e compreensão da linguagem natural) e saída de linguagem (diálogo e planejamento de resposta e síntese de fala).

Máquina de tradução

Passemos a outra tarefa útil relacionada à linguagem, a de disponibilizar aos leitores não ingleses a vasta quantidade de informações científicas na Web em inglês. Ou traduzindo para falantes ingleses as centenas de milhões de páginas web escritas em outras línguas, como o chinês. O objetivo da tradução automática é traduzir automaticamente um documento de um idioma para outro. Apresentamos os algoritmos e as ferramentas matemáticas necessárias para entender como funciona a tradução moderna da máquina. A tradução automática está longe de ser um problema resolvido; nós cobrimos os algoritmos atualmente usados no campo, bem como tarefas de componentes importantes.

Respondendo perguntas

Muitas outras tarefas de processamento de idiomas também estão relacionadas à Web. Outra tarefa desse tipo é a resposta de perguntas baseada na Web. Esta é uma generalização da pesquisa da Web simples, em vez de apenas digitar palavras-chave, o usuário pode fazer perguntas completas, variando de fácil a difícil, como o seguinte:

• O que significa “divergente”?

• Em que ano nasceu Abraham Lincoln?

• Quantos estados estavam nos Estados Unidos naquele ano?

• Quanto a seda chinesa foi exportada para a Inglaterra até o final do século XVIII?

• O que os cientistas pensam sobre a ética da clonagem humana?

Alguns desses, como questões de definição, ou perguntas simples de fato, como datas e locais, já podem ser respondidas pelos mecanismos de pesquisa. Mas responder a perguntas mais complicadas pode exigir a extração de informações incorporadas em outro texto em uma página da Web, fazendo inferências (extraindo conclusões com base em fatos conhecidos), ou sintetizando e resumindo informações de várias fontes ou páginas da web. Nesse texto, estudamos os vários componentes que compõem a compreensão moderna desse tipo, incluindo extração de informações, desambiguação de sentido das palavras e assim por diante.

Embora os subcampos e os problemas que descrevemos acima estejam muito longe de serem completamente resolvidos, estas são áreas de pesquisa muito ativas e muitas tecnologias já estão comercialmente disponíveis. No resto deste capítulo, resumimos os tipos de conhecimento necessários para essas tarefas (e outras como correção ortográfica, verificação gramatical, etc.), bem como os modelos matemáticos que são introduzido ao longo do livro.

1.1 Conhecimento no Processamento de Língua e da Fala

O que distingue os aplicativos de processamento de língua de outros sistemas de processamento de dados é o uso do conhecimento do idioma. Considere o programa wc Unix, que conta o número total de bytes, palavras e linhas em um arquivo de texto. Quando usado para contar bytes e linhas, o wc é um aplicativo comum de processamento de dados. No entanto, quando é usado para contar as palavras em um arquivo, ele requer conhecimento sobre o que significa ser uma palavra e assim se torna um sistema de processamento de língua.

Claro, o wc é um sistema extremamente simples com um conhecimento de língua extremamente limitado e empobrecido. Agentes conversacionais sofisticados como HAL, tradução de máquinas ou sistemas robustos de respostas de perguntas requerem um conhecimento muito mais amplo e profundo da língua. Para ter uma sensação para o escopo e o tipo de conhecimento necessário, considere um pouco do que HAL precisaria saber para se envolver no diálogo que começa este capítulo ou para um sistema de perguntas-resposta para responder a uma das perguntas acima.

HAL deve ser capaz de reconhecer as palavras de um sinal de áudio e gerar um sinal de áudio a partir de uma seqüência de palavras. Essas tarefas de reconhecimento de fala e síntese de fala requerem conhecimento sobre fonética e fonologia: como as palavras são pronunciadas em termos de seqüências de sons e como cada um desses sons é realizado acusticamente.

Observe também que, ao contrário de Commander Data em “Star Trek”, HAL é capaz de produzir contrações como eu e não posso. Produzir e reconhecer essas e outras variações de palavras individuais (por exemplo, reconhecendo que as portas são plurais) requer conhecimento sobre morfologia, a forma como as palavras se dividem em partes componentes que carregam significados como singular versus plural.

Movendo-se além das palavras individuais, HAL deve usar o conhecimento estrutural para encadear adequadamente as palavras que constituem sua resposta. Por exemplo, a HAL deve saber que a seguinte seqüência de palavras não terá sentido para Dave, apesar de conter precisamente o mesmo conjunto de palavras que o original.

(1.1) Eu estou, desculpe o medo de Dave, eu não posso.

O conhecimento necessário para ordenar e agrupar palavras vem sob o título de sintaxe. Agora, considere um sistema de perguntas-resposta que trata da seguinte questão:

(1.2) Quanto seda chinesa foi exportada para a Europa Ocidental até o final do século XVIII?

Para responder a esta pergunta, precisamos saber algo sobre a semântica lexical, o significado de todas as palavras (exportação ou seda), bem como a semântica composicional (o que exatamente constitui a Europa Ocidental em oposição à Europa Oriental ou do Sul, o que significa final quando combinado com o século 18. Precisamos também saber sobre a relação das palavras com a estrutura sintática. Por exemplo, precisamos saber que, no final do século 18, é um ponto final temporal e não uma descrição do agente , como a frase por frase está na seguinte frase:

(1.3) Quanto seda chinesa foi exportada para a Europa Ocidental pelos comerciantes do sul

Também precisamos do tipo de conhecimento que permite que a HAL determine que o enunciado de Dave é um pedido de ação, em oposição a uma simples declaração sobre o mundo ou uma pergunta sobre a porta, como nas seguintes variações de sua declaração original.

PEDIDO: HAL, abra a porta da baía do pod.DECLARAÇÃO: HAL, a porta do compartimento do pod está aberta.PERGUNTA DE INFORMAÇÃO: HAL, a porta do compartimento é aberta?

Em seguida, apesar do seu mau comportamento, a HAL sabe o suficiente para ser educada com Dave. Poderia, por exemplo, ter simplesmente respondido Não ou Não, não vou abrir a porta. Em vez disso, primeiro embeleza a sua resposta com as frases, desculpe-me e receio, e apenas indiretamente sinaliza a sua recusa dizendo que não posso, e não o mais direto (e verdadeiro), não o farei. Este conhecimento sobre o tipo de ações que os oradores pretendem pelo uso das frases é o conhecimento pragmático ou de diálogo.

Outro tipo de conhecimento pragmático ou discursivo é necessário para responder a pergunta

(1.4) Quantos estados estavam nos Estados Unidos naquele ano?

Em que ano é esse ano? Para interpretar palavras como esse ano, um sistema de perguntas-resposta precisa examinar as questões anteriores que foram feitas; neste caso, a pergunta anterior falou sobre o ano em que Lincoln nasceu. Assim, esta tarefa de resolução coreference faz uso do conhecimento sobre como palavras como essa ou pronomes gostam ou se referem a partes anteriores do discurso.

Para resumir, o envolvimento no comportamento linguístico complexo requer vários tipos de conhecimento de linguagem:

• Fonética e fonologia – conhecimento sobre sons linguísticos

• Morfologia – conhecimento dos componentes significativos das palavras

• Sintaxe – conhecimento das relações estruturais entre palavras

• Semântica – conhecimento do significado

• Pragmática – conhecimento da relação de significado com as metas e intenções do falante

• Discurso – conhecimento sobre unidades linguísticas maiores que um único enunciado

1.2 Ambigüidade

Ambiguidade

Um fato talvez surpreendente sobre essas categorias de conhecimento linguístico é que a maioria das tarefas no processamento de fala e linguagem pode ser vista como uma solução de ambiguidade em um ambíguo desses níveis. Dizemos que alguns insumos são ambíguos se múltiplas estruturas linguísticas alternativas possam ser construídas para isso. Considere a frase falada, eu fiz seu pato. Aqui estão cinco significados diferentes que esta frase poderia ter (veja se você pode pensar em mais), cada uma das quais exemplifica uma ambiguidade em algum nível:

(1.5) Eu cozinhei aves aquáticas para ela.

(1.6) Eu cozinhava aves aquáticas pertencentes a ela.

(1.7) Eu criei o pato (gesso?) Que ela possui.

(1.8) Eu a fiz baixar rapidamente a cabeça ou o corpo.

(1.9) Eu acenei minha varinha mágica e a convertei em aquarela indiferenciada.

Esses diferentes significados são causados ​​por uma série de ambiguidades. Primeiro, as palavras pato e ela são morfologicamente ou sintaticamente ambíguas na parte de sua fala. Pato pode ser um verbo ou um substantivo, enquanto ela pode ser um pronome dativo ou um pronome possessivo. Em segundo lugar, a palavra fazer é semanticamente ambígua; Isso pode significar criar ou cozinhar. Finalmente, o verbo é sintaticamente ambíguo de uma maneira diferente. Fazer pode ser transitivo, isto é, tomar um único objeto direto (1.6), ou pode ser intransitivo, ou seja, tirar dois objetos (1.9), o que significa que o primeiro objeto (ele) foi transformado no segundo objeto (pato) . Finalmente, faça um objeto direto e um verbo (1.8), o que significa que o objeto (ela) foi causado para executar a ação verbal (pato). Além disso, em uma frase falada, há uma ambiguidade ainda mais profunda; A primeira palavra poderia ter sido olho ou a segunda palavra empregada doméstica.

Muitas vezes, apresentamos os modelos e algoritmos que apresentamos ao longo do livro como formas de resolver ou desambiguar essas ambigüidades. Por exemplo, decidir se o pato é um verbo ou um substantivo pode ser resolvido por tagging de parte de fala. Decidir se o fazer significa “criar” ou “cozinhar” pode ser resolvido pela desambiguação de sentido das palavras. A resolução das ambiguidades da parte da fala e do sentido das palavras são dois tipos importantes de desambiguação lexical.

Uma grande variedade de tarefas pode ser enquadrada como problemas de desambiguação lexical. Por exemplo, um sistema de síntese de texto para fala que lê a palavra líder precisa decidir se deve ser pronunciado como no tubo de derivação ou como para me levar. Em contraste, decidir se ela e o pato fazem parte da mesma entidade (como em (1.5) ou (1.8)) ou são entidades diferentes (como em (1.6)) é um exemplo de desambiguação sintática e podem ser abordadas por análise probabilística.

Também consideramos ambiguidades que não surgem neste exemplo particular, como determinar se uma frase é uma declaração ou uma pergunta (que pode ser resolvida por interpretação de atos de fala).

1.3 Modelos e Algoritmos

Uma das principais idéias dos últimos 50 anos de pesquisa em processamento de linguagem é que os vários tipos de conhecimento descritos nas últimas seções podem ser capturados através do uso de uma pequena quantidade de modelos ou teorias formais. Felizmente, esses modelos e teorias são todos desenhados a partir dos kits de ferramentas padrão de informática, matemática e linguística e devem ser geralmente familiares aos treinados nesses campos. Entre os modelos mais importantes estão as máquinas de estado, os sistemas de regras, a lógica, os modelos probabilísticos e os modelos de espaço vetorial. Esses modelos, por sua vez, se prestam a um pequeno número de algoritmos, entre os mais importantes dos quais são os algoritmos de busca de espaço estático, como programação dinâmica e algoritmos de aprendizado de máquina, como classificadores e Expectation-Maximization (EM) e outros algoritmos de aprendizagem.

Na sua formulação mais simples, as máquinas de estado são modelos formais que consistem em estados, transições entre estados e uma representação de entrada. Algumas das variações deste modelo básico que consideramos são os autômatos de estados finitos e os transdutores de estados finitos deterministas e não-deterministas.

Estreitamente relacionados com esses modelos são as suas contrapartes declarativas: sistemas de regras formais. Entre os mais importantes que consideramos (em formulações probabilísticas e não probabilistas) estão gramáticas regulares e relações regulares, gramáticas livres de contexto e gramáticas com características aumentadas. Máquinas de estado e sistemas de regras formais são as principais ferramentas usadas ao lidar com conhecimento de fonologia, morfologia e sintaxe.

Uma terceira classe de modelos que desempenha um papel crítico na captura de conhecimento de linguagem são modelos baseados em lógica. Discutimos a lógica de primeiro ordem, também conhecida como cálculo de predicado, bem como formalismos relacionados como cálculo de lambda, estruturas de características e primitivas semânticas. Essas representações lógicas têm sido tradicionalmente usadas para modelar a semântica e a pragmática, embora um trabalho mais recente tenha tendido a se concentrar em técnicas potencialmente mais robustas, tiradas da semântica lexical não lógica.

Os modelos probabilísticos são cruciais para capturar todo tipo de conhecimento linguístico. Cada um dos outros modelos (máquinas de estado, sistemas de regras formais e lógica) pode ser aumentado com probabilidades. Por exemplo, a máquina de estado pode ser aumentada com probabilidades para se tornar o autômato ponderado, ou o modelo de Markov. Nós gastamos uma quantidade significativa de tempo em modelos de Markov escondidos ou HMMs, que são usados ​​em todos os campos no campo, em rotulagem parcial, reconhecimento de fala, compreensão de diálogo, conversão de texto para voz e tradução de máquinas. A principal vantagem dos modelos probabilísticos é a sua capacidade de resolver os vários tipos de problemas de ambiguidade que discutimos anteriormente; quase qualquer problema de processamento de fala e linguagem pode ser reformulado como “dado N escolhas para alguma entrada ambígua, escolha o mais provável”.

Finalmente, os modelos de espaço vetorial, baseados na álgebra linear, são subjacentes à recuperação da informação e muitos tratamentos de significados de palavras.

O processamento de linguagem com qualquer um desses modelos geralmente envolve uma busca por um espaço de estados que representa hipóteses sobre uma entrada. No reconhecimento de fala, buscamos através de um espaço de sequências de telefone para a palavra correta. Na análise, procuramos um espaço de árvores para a análise sintática de uma sentença de entrada. Na tradução automática, buscamos através de um espaço de hipóteses de tradução para a tradução correta de uma frase em outro idioma. Para tarefas não probabilísticas, como tarefas que envolvem máquinas de estado, usamos algoritmos de grafos bem conhecidos, como pesquisa de profundidade-primeira. Para tarefas probabilísticas, usamos variantes heurísticas como a melhor primeira e a pesquisa A * e confiamos em algoritmos de programação dinâmica para traçabilidade computacional.

As ferramentas de aprendizagem de máquina, como classificadores e modelos de sequência, desempenham um papel importante em muitas tarefas de processamento de idiomas. Com base em atributos que descrevem cada objeto, um classificador tenta atribuir um único objeto a uma única classe enquanto um modelo de sequência tenta classificar em conjunto uma seqüência de objetos em uma seqüência de classes.

Por exemplo, na tarefa de decidir se uma palavra está escrita corretamente, classificadores como árvores de decisão, máquinas de vetor de suporte, modelos de mistura gaussiana e regressão logística podem ser usados ​​para tomar uma decisão binária (correta ou incorreta) para uma palavra em no tempo. Modelos de seqüência, como modelos de Markov escondidos, modelos de Markov de entropia máxima e campos aleatórios condicionais podem ser usados ​​para atribuir etiquetas corretas / incorretas a todas as palavras em uma frase ao mesmo tempo.

Finalmente, os pesquisadores em processamento de linguagem usam muitas das mesmas ferramentas metodológicas que são usadas na pesquisa de aprendizagem de máquinas – o uso de conjuntos distintos de treinamento e teste, técnicas estatísticas como validação cruzada e avaliação cuidadosa de sistemas treinados.

1.4 Linguagem, pensamento e compreensão

Teste de Turing

Para muitos, a capacidade dos computadores para processar linguagem tão habilmente como nós, humanos, irá sinalizar a chegada de máquinas verdadeiramente inteligentes. A base dessa crença é o fato de que o uso efetivo da linguagem está interligado com nossas habilidades cognitivas gerais. Entre os primeiros a considerar as implicações computacionais dessa conexão íntima, Alan Turing (1950). Neste papel famoso, Turing introduziu o que veio a ser conhecido como o teste de Turing. Turing começou com a tese de que a questão do que significaria para uma máquina pensar era essencialmente irrespondível por causa da imprecisão inerente nos termos máquina e pensamento. Em vez disso, ele sugeriu um teste empírico, um jogo, no qual o uso de linguagem de um computador seria a base para determinar se a máquina poderia pensar. Se a máquina pudesse ganhar o jogo, seria julgado inteligente.

No jogo de Turing, existem três participantes: duas pessoas e um computador. Uma das pessoas é uma concorrente que desempenha o papel de interrogador. Para ganhar, o interrogador deve determinar qual dos outros dois participantes é a máquina, fazendo uma série de perguntas através de um teletipo. A tarefa da máquina é enganar o interrogador para acreditar que é uma pessoa respondendo como uma pessoa às perguntas do interrogador. A tarefa do segundo participante humano é convencer o interrogador de que o outro participante é a máquina e que ela é humana.

A seguinte interação do artigo de Turing ilustra o tipo de interações que ele teve em mente. Claramente, uma simulação convincente da humanidade não exige ser um especialista em todos os domínios:

P: Por favor, escreva-me um soneto sobre o tema da Forth Bridge.

R: Conte-me com este. Nunca consegui escrever poesia.

P: Adicione 34957 a 70764.

A: (Pausar cerca de 30 segundos e depois responder como) 105621.

Turing previu que, aproximadamente, no final do século 20, uma máquina com 10 gigabytes de memória teria cerca de 30% de chance de enganar um interrogador humano após cinco minutos de interrogatório. Dado o fato de que você pode enganar algumas pessoas o tempo todo, não está claro o rigor desse padrão específico. No entanto, o problema crítico para Turing foi que o uso do idioma como humano faz é suficiente, por si só, como um teste operacional para a inteligência.

ELIZA

Surpreendentemente, muitas das questões levantadas por Turing tornaram-se relevantes já em 1966 no contexto do programa ELIZA (Weizenbaum, 1966). ELIZA era um sistema inicial de processamento de linguagem natural capaz de transmitir uma forma limitada de conversação com um usuário. Considere a seguinte sessão com uma versão de ELIZA que imitou as respostas de um psicoterapeuta Rogeriano.

Usuário1: você é como meu pai de certa forma.

ELIZA1: O QUE RESEMBLANÇA VEJA

Usuário2: você não é muito agressivo, mas acho que não quer que eu perceba isso.

ELIZA2: O QUE FAZ VOCÊ PENSA QUE NÃO ESTOU AGRESSIVO

Usuário3: Você não discute comigo.

ELIZA3: POR QUE PENSA QUE NÃO ESTOU ARGUE COM VOCÊ

Usuário4: Você tem medo de mim.

ELIZA4: POR FAVOR PODE ACREDITAR, EU ESTOU ENTENDIDO DE VOCÊ

Conforme discutimos mais detalhadamente no Capítulo 2, o ELIZA é um programa notavelmente simples que usa correspondência padrão para processar a entrada e traduzi-la em saídas adequadas. Esta técnica simples é bem sucedida neste domínio porque ELIZA na verdade não precisa saber nada para imitar um psicoterapeuta Rogeriano. Como observa Weizenbaum, este é um dos poucos gêneros de diálogo onde os ouvintes podem agir como se não conhecessem o mundo.

A profunda relevância de ELIZA para as idéias de Turing é que muitas pessoas que interagiram com ELIZA vieram a acreditar que realmente as entendia e seus problemas. Na verdade, Weizenbaum (1976) observa que muitas dessas pessoas continuaram a acreditar nas habilidades da ELIZA mesmo depois que a operação do programa lhes foi explicada. Nos últimos anos, os testes informais de Weizenbaum foram repetidos em um cenário um pouco mais controlado. Desde 1991, um evento conhecido como concurso do Prêmio Loebner tentou colocar vários programas de computador no teste de Turing. Embora esses concursos parecem ter pouco interesse científico, um resultado consistente ao longo dos anos foi que mesmo os programas mais cruéis podem enganar alguns dos juízes algum tempo (Shieber, 1994a). Não surpreendentemente, esses resultados não fizeram nada para reprimir o debate em curso sobre a adequação do teste de Turing como um teste de inteligência entre filósofos e pesquisadores de AI (Searle, 1980).

Felizmente, para os propósitos deste livro, a relevância desses resultados não depende de saber se os computadores serão inteligentes ou jamais entenderão a linguagem natural. Muito mais importante é a recente pesquisa relacionada nas ciências sociais que confirmou outra das previsões de Turing a partir do mesmo artigo.

No entanto, acredito que, no final do século, o uso de palavras e opiniões educadas terão alterado tanto que poderemos falar de máquinas pensando sem esperar a ser contraditadas.

Agora está claro que, independentemente do que as pessoas acreditam ou saibam sobre o funcionamento interno dos computadores, eles falam sobre eles e interagem com eles como entidades sociais. As pessoas agem em direção a computadores como se fossem pessoas; Eles são educados com eles, tratá-los como membros da equipe e esperam, entre outras coisas, que os computadores possam entender suas necessidades e ser capazes de interagir com elas naturalmente. Por exemplo, Reeves e Nass (1996) descobriram que, quando um computador pediu a um humano para avaliar o quão bem o computador estava fazendo, o ser humano dá respostas mais positivas do que quando um computador diferente faz as mesmas perguntas. As pessoas pareciam ter medo de serem descortês. Em um experimento diferente, Reeves e Nass descobriram que as pessoas também dão aos computadores classificações de desempenho mais altas se o computador recentemente dissesse algo lisonjeiro para o ser humano. Dadas essas predisposições, sistemas baseados em fala e linguagem podem fornecer muitos usuários com a interface mais natural para muitas aplicações. Este fato levou a um foco a longo prazo no campo no design de agentes conversacionais, entidades artificiais que se comunicam conversacionalmente.

1.5 O estado da arte

Só podemos ver uma curta distância à frente, mas podemos ver muito lá que precisa ser feito. (Alan Turing)

Este é um momento emocionante para o campo de processamento de fala e linguagem. O surpreendente aumento nos recursos de computação disponíveis para o usuário médio do computador, o aumento da Web como uma enorme fonte de informações e a crescente disponibilidade de acesso móvel sem fio colocaram aplicativos de processamento de fala e linguagem no foco da tecnologia. Os seguintes são exemplos de alguns sistemas implantados atualmente que refletem essa tendência:

  1. • Os viajantes que ligam para a Amtrak, a United Airlines e outros provedores de viagens interagem com agentes conversacionais que os orientam no processo de fazer reservas e obter informações de chegada e partida.
  2. • Os fabricantes de automóveis fornecem sistemas automáticos de reconhecimento de voz e texto para voz que permitem que os drivers controlem seus sistemas ambientais, de entretenimento e de navegação por voz. Um sistema de diálogo falado semelhante foi implantado por astronautas na Estação Espacial Internacional.
  3. • As empresas de pesquisa de vídeo fornecem serviços de pesquisa para milhões de horas de vídeo na Web usando a tecnologia de reconhecimento de voz para capturar as palavras na faixa de som.
  4. • O Google oferece serviços de recuperação e tradução de informações em idiomas cruzados, pelos quais os usuários podem fornecer consultas em seu idioma nativo para pesquisar coleções em outro idioma. O Google traduz a consulta, encontra as páginas mais relevantes e depois as traduz automaticamente para o idioma nativo do usuário.
  5. • Grandes editores educacionais, como a Pearson e os serviços de teste, como o ETS, usam sistemas automatizados para analisar milhares de ensaios estudantis, classificando-os e avaliando-os de uma maneira que é indistinguível das criadoras humanas.
  6. • Os agentes virtuais interativos, baseados em personagens animados, servem como tutores para crianças que aprendem a ler (Wise et al., 2007).
  7. • As empresas de análise de texto fornecem inteligência de marketing com base em medidas automatizadas de opiniões de usuários, preferências, atitudes expressadas em weblogs, fóruns de discussão e grupos de usuários.

1.6 Breve história

Historicamente, o processamento da fala e da linguagem foi tratado de forma muito diferente em informática, engenharia elétrica, linguística e psicologia / ciência cognitiva. Devido a essa diversidade, o processamento da fala e da linguagem abrange vários campos diferentes, mas sobrepostos, nesses diferentes departamentos: lingüística computacional em linguística, processamento de linguagem natural em informática, reconhecimento de fala em engenharia elétrica, psicolinguística computacional em psicologia. Esta seção resume os diferentes segmentos históricos que deram origem ao campo de processamento de fala e linguagem. Esta seção fornece apenas um esboço, mas muitos dos tópicos listados aqui são abordados com mais detalhes nos capítulos subseqüentes.

1.6.1 Insights fundamentais: década de 1940 e 1950

As primeiras raízes do campo datam do período intelectualmente fértil logo após a Segunda Guerra Mundial, que deu origem ao próprio computador. Este período, desde a década de 1940 até o final da década de 1950, teve intenso trabalho em dois paradigmas fundamentais: o autômato e os modelos probabilísticos ou teóricos da informação.

O autômato surgiu na década de 1950 do modelo de computação algorítmica de Turing (1936), considerado por muitos como a base da ciência da computação moderna. O trabalho de Turing levou primeiro ao neurônio McCulloch-Pitts (McCulloch e Pitts, 1943), um modelo simplificado do neurônio como um tipo de elemento computacional que poderia ser descrito em termos de lógica proposicional e, em seguida, no trabalho de Kleene (1951) e (1956) em autômatos finitos e expressões regulares. Shannon (1948) aplicou modelos probabilísticos de processos discretos de Markov em autômatos para linguagem. Com base na idéia de um processo Markov de finalização do trabalho de Shannon, Chomsky (1956) considerou primeiro máquinas finitas como uma maneira de caracterizar uma gramática e definiu uma linguagem de estados finitos como uma linguagem gerada por uma gramática de estados finitos. Esses primeiros modelos levaram ao campo da teoria formal da linguagem, que usava a álgebra e definia a teoria para definir linguagens formais como seqüências de símbolos. Isso inclui a gramática livre de contexto, definida pela primeira vez por Chomsky (1956) para linguagens naturais, mas descoberta de forma independente por Backus (1959) e Naur et al. (1960) em suas descrições da linguagem de programação ALGOL.

A segunda visão fundamental deste período foi o desenvolvimento de algoritmos probabilísticos para o processamento de fala e linguagem, que data da outra contribuição de Shannon: a metáfora do canal ruidoso e a decodificação da transmissão de linguagem através de mídia como canais de comunicação e acústica de fala. Shannon também emprestou o conceito de entropia da termodinâmica como uma forma de medir a capacidade de informação de um canal, ou o conteúdo de informação de um idioma, e realizou a primeira medida da entropia do inglês usando técnicas probabilísticas.

Foi também durante este período inicial que o espectrógrafo de som foi desenvolvido (Koenig et al., 1946), e a pesquisa fundacional foi feita em fonética instrumental que estabeleceu as bases para trabalhos posteriores no reconhecimento de fala. Isso levou aos primeiros reconhecedores de fala da máquina no início da década de 1950. Em 1952, pesquisadores da Bell Labs construíram um sistema estatístico que poderia reconhecer qualquer um dos 10 dígitos de um único falante (Davis et al., 1952). O sistema tinha 10 padrões armazenados dependentes de falantes que representavam aproximadamente os dois primeiros formadores de vogais nos dígitos. Eles alcançaram uma precisão de 97% a 99% escolhendo o padrão que apresentou o coeficiente de correlação relativa mais alto com a entrada.

1.6.2 Os dois campos: 1957-1970

No final da década de 1950 e no início da década de 1960, o processamento da fala e da linguagem dividiu-se de forma muito limpa em dois paradigmas: simbólicos e estocásticos.

O paradigma simbólico decolou de duas linhas de pesquisa. O primeiro foi o trabalho de Chomsky e outros sobre a teoria formal da linguagem e sintaxe generativa ao longo do final da década de 1950 e início a meados da década de 1960, e o trabalho de muitos linguistas e cientistas da computação em algoritmos de análise, inicialmente de cima para baixo e de baixo para cima e depois com programação dinâmica. Um dos primeiros sistemas de análise completa foi o Projeto de Transformações e Análise do Discurso de Zelig Harris (TDAP), que foi implementado entre junho de 1958 e julho de 1959 na Universidade da Pensilvânia (Harris, 1962) .2 A segunda linha de pesquisa foi o novo campo de inteligência artificial. No verão de 1956, John McCarthy, Marvin Minsky, Claude Shannon e Nathaniel Rochester reuniram um grupo de pesquisadores para uma oficina de dois meses sobre o que eles decidiram chamar de inteligência artificial (AI). Embora a IA sempre incluísse uma minoria de pesquisadores focados em algoritmos estocásticos e estatísticos (incluindo modelos probabilísticos e redes neurais), o foco principal do novo campo foi o trabalho sobre o raciocínio e a lógica tipificados pelo trabalho de Newell e Simon sobre o Teórico da Lógica e o General Solucionador de problema. Neste ponto, construíram-se sistemas iniciais de compreensão da linguagem natural. Esses sistemas simples funcionaram em domínios únicos, principalmente por uma combinação de correspondência de padrões e pesquisa de palavras-chave com heurísticas simples para raciocínio e perguntas-respostas. No final da década de 1960, foram desenvolvidos mais sistemas lógicos formais.

O paradigma estocástico assumiu principalmente em departamentos de estatística e de engenharia elétrica. No final da década de 1950, o método bayesiano estava começando a ser aplicado ao problema do reconhecimento óptico de caracteres. Bledsoe e Browning (1959) criaram um reconhecimento de texto bayesiano que usou um grande dicionário e calculou a probabilidade de cada seqüência de letras observada dada cada palavra no dicionário multiplicando as probabilidades de cada letra. Mosteller e Wallace (1964) aplicaram métodos bayesianos ao problema da atribuição da autoria em The Federalist papers.

A década de 1960 também viu o surgimento dos primeiros modelos psicológicos testáveis ​​sérios do processamento de linguagem humana com base na gramática transformacional, bem como os primeiros corpos em linha: o corpus marrom do inglês americano, uma coleção de amostras de uma milhão de amostras de 500 textos escritos de diferentes gêneros (jornal, novelas, não ficção, acadêmico, etc.), que foi reunido na Universidade Brown em 1963-64 (Kucera e Francis, 1967; Francis, 1979; Francis e Kucera, 1982) e William SY O DOC de Wang em 1967 (Dictionary on Computer), um dicionário de dialetos chineses on-line.

1.6.3 Quatro Paradigmas: 1970-1983

O próximo período viu uma explosão na pesquisa no processamento de fala e linguagem e no desenvolvimento de uma série de paradigmas de pesquisa que ainda dominam o campo.

O paradigma estocástico desempenhou um papel importante no desenvolvimento de algoritmos de reconhecimento de fala neste período, particularmente o uso do modelo de Markov escondido (HMM) e as metáforas do canal e decodificação ruidosos, desenvolvidos independentemente por Jelinek, Bahl, Mercer e colegas no Centro de Pesquisa Thomas J. Watson da IBM, e por Baker na Universidade Carnegie Mellon, que foi influenciada pelo trabalho de Baum e colegas no Instituto de Análises de Defesa em Princeton. Laboratórios Bell da AT & T foi outro centro-chave para o trabalho sobre reconhecimento e síntese de fala; veja Rabiner e Juang (1993) para obter descrições sobre a ampla gama deste trabalho.

O paradigma baseado em lógica foi iniciado pelo trabalho de Colmerauer e seus colegas sobre Q-sistemas e gramáticas de metamorfose (Colmerauer, 1970, 1975), precursores de Prolog e Gramática de Cláusulas Definidas (Pereira e Warren, 1980). Independentemente, o trabalho de Kay (1979) sobre a gramática funcional e pouco depois, o trabalho de Bresnan e Kaplan (1982) sobre Gramática Funcional Lexical (LFG), estabeleceu a importância da unificação da estrutura característica.

O campo de compreensão da linguagem natural decolou durante este período, começando pelo sistema SHRDLU da Winograd, que simulou um robô embutido em um mundo de blocos de brinquedo (Winograd, 1972a). O programa foi capaz de aceitar comandos de texto de linguagem natural (Mover o bloco vermelho em cima do mais pequeno verde) de uma complexidade e sofisticação até agora descobertas. Seu sistema também foi o primeiro a tentar construir uma gramática extensa (para o tempo) do inglês, com base na gramática sistêmica de Halliday. O modelo de Winograd deixou claro que o problema da análise foi suficientemente compreendido para começar a se concentrar na semântica e no discurso. Roger Schank e seus colegas e estudantes (no que muitas vezes foi chamado de Escola de Yale) construíram uma série de programas de compreensão de línguas que se concentraram em conhecimento conceitual, como scripts, planos e objetivos, e organização da memória humana (Schank e Abelson, 1977; Schank e Riesbeck, 1981; Cullingford, 1981; Wilensky, 1983; Lehnert, 1977). Este trabalho freqüentemente usava semântica baseada em rede (Quillian, 1968; Norman e Rumelhart, 1975; Schank, 1972; Wilks, 1975c, 1975b; Kintsch, 1974) e começou a incorporar a noção de Fillmore de papéis de casos (Fillmore, 1968) em suas representações (Simmons, 1973).

Os paradigmas de compreensão da linguagem e da linguagem natural foram unificados em sistemas que utilizavam a lógica do predicado como uma representação semântica, como o sistema de perguntas-resposta LUNAR (Woods, 1967, 1973).

1.6.4 Empirismo e modelos de estado fino Redux: 1983-1993

Na próxima década, o retorno de duas classes de modelos que perderam popularidade no final da década de 1950 e início dos anos 1960, em parte devido a argumentos teóricos contra eles, como a influente revisão de Chomsky sobre o comportamento verbal de Skinner (Chomsky, 1959b). A primeira classe foi modelos de estados finitos, que começaram a receber atenção novamente após o trabalho sobre fonologia e morfologia de estados finitos por Kaplan e Kay (1981) e modelos de sintaxe de estados finitos pela Igreja (1980). Um grande conjunto de trabalhos em modelos de estados finitos é descrito ao longo do livro.

A segunda tendência neste período foi o que chamou de “retorno do empirismo”; mais notável aqui foi o aumento de modelos probabilísticos em todo o processamento da fala e do idioma, influenciado fortemente pelo trabalho no IBM Thomas J. Watson Research Center sobre modelos probabilísticos de reconhecimento de fala. Esses métodos probabilísticos e outras abordagens baseadas em dados se espalharam do discurso para interpretação, análise e ambiguidades de anexos e semântica. Essa direção empírica também foi acompanhada por um novo foco na avaliação do modelo, com base no uso de dados estendidos, no desenvolvimento de métricas quantitativas para avaliação e enfatizando a comparação do desempenho nessas métricas com a pesquisa publicada anteriormente.

Este período também teve um trabalho considerável na geração de linguagem natural.

1.6.5 O campo vem junto: 1994-1999

Nos últimos cinco anos do milênio, ficou claro que o campo estava sofrendo grandes mudanças. Em primeiro lugar, os modelos probabilísticos e baseados em dados tornaram-se bastante padrão em todo o processamento do idioma natural. Algoritmos para análise, etiquetado parcial, resolução de referência e processamento de discurso começaram a incorporar probabilidades e a empregar metodologias de avaliação emprestadas do reconhecimento de fala e recuperação de informações. Em segundo lugar, os aumentos na velocidade e na memória dos computadores permitiram a exploração comercial de uma série de subáreas de processamento de fala e linguagem, em particular, reconhecimento de fala e correção ortográfica e gramatical. Os algoritmos de processamento de fala e linguagem começaram a ser aplicados na Comunicação Aumentativa e Alternativa (AAC). Finalmente, o surgimento da Web enfatizou a necessidade de recuperação de informação baseada em linguagem e extração de informações.

1.6.6 O surgimento da aprendizagem de máquinas: 2000-2008

As tendências empiristas iniciadas na última parte da década de 1990 aceleraram a um ritmo surpreendente no novo século. Essa aceleração foi em grande parte impulsionada por três tendências sinérgicas.

Primeiro, grandes quantidades de material falado e escrito tornaram-se amplamente disponíveis através dos auspícios do Linguistic Data Consortium (LDC) e outras organizações similares. Importante, incluídos entre esses materiais foram coleções anotadas, como Penn Treebank (Marcus et al., 1993), Prague Dependency Treebank (Hajic, 1998), PropBank (Palmer et al., 2005), Penn Discourse Treebank (Miltsakaki et al. ., 2004b), RSTBank (Carlson et al., 2001) e TimeBank (Pustejovsky et al., 2003b), todos os quais em camadas de fontes de texto padrão com várias formas de anotações sintáticas, semânticas e pragmáticas. A existência desses recursos promoveu a tendência de lançar problemas tradicionais mais complexos, como análises e análises semânticas, como problemas na aprendizagem automática de máquinas. Estes recursos também promoveram o estabelecimento de avaliações competitivas adicionais para a análise (Dejean e Tjong Kim Sang, 2001), extração de informação (NIST, 2007a; Tjong Kim Sang, 2002; Tjong Kim Sang e De Meulder, 2003), desambiguação de sentido de palavras (Palmer et al., 2001, Kilgarriff e Palmer, 2000), respondendo perguntas (Voorhees e Tice, 1999) e resumo (Dang, 2006).

Em segundo lugar, esse aumento no foco na aprendizagem levou a uma interação mais séria com a comunidade estatística de aprendizagem de máquinas. Técnicas como máquinas de vetor de suporte (Boser et al., 1992; Vapnik, 1995), técnicas de entropia máximas e sua formulação equivalente como regressão logística multinomial (Berger et al., 1996) e modelos geométricos gráficos (Pearl, 1988) tornaram-se padrão prática em linguística computacional. Em terceiro lugar, a ampla disponibilidade de sistemas de computação de alto desempenho facilitou o treinamento e implantação de sistemas que não poderiam ter sido imaginados uma década antes.

Finalmente, perto do final deste período, as abordagens estatísticas em grande parte não supervisionadas começaram a receber atenção renovada. O progresso nas abordagens estatísticas para a tradução automática (Brown et al., 1990; Och and Ney, 2003) e a modelagem tópica (Blei et al., 2003) demonstraram que as aplicações efetivas poderiam ser construídas a partir de sistemas treinados apenas em dados não anotados. Além disso, o custo generalizado e a dificuldade de produzir corpos com anotações confiáveis ​​tornaram-se um fator limitante no uso de abordagens supervisionadas para muitos problemas. Essa tendência para o uso de técnicas não supervisionadas provavelmente aumentará.

1.6.7 Sobre múltiplas descobertas

Mesmo nesta breve visão histórica, mencionamos vários casos de múltiplas descobertas independentes da mesma idéia. Apenas alguns dos “múltiplos” a serem discutidos neste livro incluem a aplicação de programação dinâmica para comparação de seqüência por Viterbi, Vintsyuk, Needleman e Wunsch, Sakoe e Chiba, Sankoff, Reichert et al., E Wagner e Fischer (Capítulos 3 , 5 e 6); o modelo HMM / canal ruim do reconhecimento de fala por Baker e por Jelinek, Bahl e Mercer (Capítulos 6, 9 e 10); o desenvolvimento de gramáticas sem contexto por Chomsky e por Backus e Naur (Capítulo 12); a prova de que o suiço-alemão possui sintaxe sem contexto livre por Huybregts e por Shieber (capítulo 16); A aplicação da unificação ao processamento de linguagem por Colmerauer et al. e por Kay (Capítulo 15).

Esses múltiplos são considerados coincidências surpreendentes? Uma hipótese bem conhecida do sociólogo da ciência Robert K. Merton (1961) argumenta, ao contrário, que todas as descobertas científicas são, em princípio, múltiplos, inclusive aqueles que na superfície parecem ser únicas.

Claro, existem muitos casos bem conhecidos de descoberta múltipla ou invenção; apenas alguns exemplos de uma extensa lista em Ogburn e Thomas (1922) incluem a invenção múltipla do cálculo por Leibnitz e por Newton, o desenvolvimento múltiplo da teoria da seleção natural por Wallace e por Darwin e a invenção múltipla do telefone por Gray e Bell.3 Mas Merton oferece mais uma série de evidências para a hipótese de que a descoberta múltipla é a regra e não a exceção, incluindo muitos casos de singletons putativos que se revelam uma redescoberta de trabalhos anteriormente inéditos ou talvez inacessíveis. Uma evidência ainda mais forte é o seu ponto etnometodológico de que os próprios cientistas agem sob o pressuposto de que a invenção múltipla é a norma. Assim, muitos aspectos da vida científica são projetados para ajudar os cientistas a evitar serem “escavados”: datas de submissão em artigos de periódicos, datas cuidadosas e registros de pesquisa, circulação de relatórios preliminares ou técnicos.

1.6.8 Uma breve nota final sobre psicologia

Muitos dos capítulos deste livro incluem breves resumos de pesquisa psicológica sobre processamento humano. Claro, entender o processamento da linguagem humana é um importante objetivo científico por direito próprio e faz parte do campo geral da ciência cognitiva. No entanto, uma compreensão do processamento de linguagem humana pode ser útil na construção de melhores modelos de máquinas da linguagem. Isso parece contrário à sabedoria popular, que sustenta que o mimetismo direto dos algoritmos da natureza raramente é útil nas aplicações de engenharia. Por exemplo, muitas vezes o argumento é que se copiássemos a natureza exatamente, os aviões soltariam as asas; ainda aviões com asas fixas são uma solução de engenharia mais bem sucedida. Mas o idioma não é aeronáutico. Cribbing da natureza às vezes é útil para a aeronáutica (afinal, os aviões têm asas), mas é particularmente útil quando tentamos resolver tarefas centradas no ser humano. O vôo do avião tem objetivos diferentes do vôo do pássaro; mas o objetivo dos sistemas de reconhecimento de fala, por exemplo, é realizar exatamente a tarefa que os repórteres de tribunais humanos realizam todos os dias: transcreva o diálogo falado. Como as pessoas já fazem isso bem, podemos aprender com a solução anterior da natureza. Além disso, uma vez que uma aplicação importante dos sistemas de processamento de fala e linguagem é para a interação homem-computador, faz sentido copiar uma solução que se comporte como as pessoas estão acostumadas.

1.7 Resumo

Este capítulo apresenta o campo de processamento de fala e linguagem. Os seguintes são alguns dos destaques deste capítulo.

• Uma boa maneira de entender as preocupações da pesquisa de processamento de fala e linguagem é considerar o que seria necessário para criar um agente inteligente como HAL a partir de 2001: Uma Odisséia do Espaço, ou criar um respondente de perguntas baseado na Web ou um mecanismo de tradução de máquina.

• A tecnologia da fala e do idioma baseia-se em modelos formais, ou representações, de conhecimento de linguagem nos níveis de fonologia e fonética, morfologia, sintaxe, semântica, pragmática e discurso. Uma série de modelos formais, incluindo máquinas de estado, sistemas de regras formais, lógica e modelos probabilísticos, são usados ​​para capturar esse conhecimento.

• Os fundamentos da tecnologia da fala e da linguagem estão em informática, linguística, matemática, engenharia elétrica e psicologia. Um pequeno número de algoritmos de estruturas padrão são usados ​​em todo o processamento de fala e linguagem.

• A conexão crítica entre linguagem e pensamento colocou a tecnologia de processamento de fala e linguagem no centro do debate sobre máquinas inteligentes. Além disso, a pesquisa sobre como as pessoas interagem com meios complexos indica que a tecnologia de processamento de fala e linguagem será crítica no desenvolvimento de tecnologias futuras.

• Aplicações revolucionárias do processamento de fala e linguagem estão atualmente em uso em todo o mundo. A criação da Web, bem como melhorias recentes significativas no reconhecimento e síntese de fala, levará a muitas outras aplicações.

Notas bibliográficas e históricas

A pesquisa nas várias subáreas de processamento de fala e linguagem está espalhada por um amplo número de trabalhos e revistas da conferência. As conferências e revistas mais centradas no processamento de linguagem natural e na linguística computacional estão associadas à Associação de Linguística Computacional (ACL), a sua homóloga européia (EACL) e à Conferência Internacional de Linguística Computacional (COLING). Os procedimentos anuais da ACL, NAACL e EACL, e a conferência bienal COLING são os principais fóruns de trabalho nesta área. As conferências relacionadas incluem vários procedimentos dos Grupos de Interesse Especial (SIG) da ACL, como a Conferência sobre Aprendizagem de Linguagem Natural (CoNLL), bem como a conferência sobre Métodos Empíricos no Processamento da Linguagem Natural (EMNLP).

Pesquisas sobre reconhecimento, compreensão e síntese de fala são apresentadas na conferência anual INTERSPEECH, denominada Conferência Internacional sobre Processamento da Linguagem (ICSLP), e a Conferência Européia de Comunicação e Tecnologia da Fala (EUROSPEECH) em anos alternados ou a anual Conferência Internacional IEEE sobre Processamento de Acústica, Discurso e Sinal (IEEE ICASSP). A pesquisa de diálogo de língua falada é apresentada nessas ou em oficinas como o SIGDial.

Os periódicos incluem Lingüística Computacional, Engenharia de Linguagem Natural, Discurso e Linguagem do Computador, Comunicação Espiritual, Transações IEEE no Processamento de Áudio, Fala e Linguagem, Transações ACM no Processamento de Fala e Linguagem e Problemas Lingüísticos em Tecnologia de Idiomas.

Muitos desses trabalhos, incluindo os do periódico de Linguística Computacional e as conferências ACL, COLING e relacionadas, estão disponíveis gratuitamente na ACL Anthology (http://www.aclweb.org/anthology-index/).

O trabalho sobre o processamento do idioma a partir de uma perspectiva de Inteligência Artificial pode ser encontrado nas reuniões anuais da Associação Americana de Inteligência Artificial (AAAI), bem como as reuniões bem-vindas da Conferência Conjunta Internacional sobre Inteligência Artificial (IJCAI). Os periódicos de inteligência artificial que apresentam periodicamente trabalho sobre processamento de fala e linguagem incluem Aprendizagem de Máquinas, Journal of Machine Learning Research e Journal of Artificial Intelligence Research.

Um número razoável de livros didáticos que cobrem vários aspectos do processamento de fala e linguagem estão disponíveis. Manning e Schutze (1999) (¨ Fundamentos do processamento de linguagem estatística) centra-se em modelos estatísticos de marcação, análise, desambiguação, colocações e outras áreas. Charniak (1993) (Statistical Language Learning) é uma introdução acessível, embora mais antiga e menos extensa, a material similar. Manning et al. (2008) concentra-se na recuperação de informações, na classificação de texto e no agrupamento. NLTK, o Natural Language Toolkit (Bird e Loper, 2004), é um conjunto de módulos e dados Python para o processamento de linguagem natural, juntamente com um livro de processamento de linguagem natural baseado na suíte NLTK. Allen (1995) (Natural Language Understanding) fornece ampla cobertura do processamento de linguagem da perspectiva da IA. Gazdar e Mellish (1989) (Processamento de linguagem natural em Lisp / Prolog / Pop11) abrange especialmente autômatos, análise, recursos e unificação e está disponível gratuitamente em linha. Pereira e Shieber (1987) fornecem uma introdução baseada em Prolog para análise e interpretação. Russell e Norvig (2002) introduzem inteligência artificial com capítulos sobre processamento de linguagem natural. Partee et al. (1990) abrange amplamente a linguística matemática. Uma coleção historicamente significativa de artigos fundamentais pode ser encontrada em Grosz et al. (1986) (Leituras em processamento de linguagem natural).

Há muitos lugares para adquirir corpora de discurso e texto. Um dos maiores é o Linguistic Data Consortium, um consórcio sem fins lucrativos que cria e distribui corpora (http://www.ldc.upenn.edu/). Veja a página da web de livros didáticos para obter ponteiros para outras pessoas, como CHILDES (http://childes.psy.cmu.edu/), o British National Corpus (http://www.natcorp.ox.ac.uk/), a International Corpus of English (http://www.ucl.ac.uk/english-usage/ice/index.htm), e Project Gutenberg (http://www.gutenberg.org/).

Capítulo 28 – Pergunta e Resposta

A busca pelo conhecimento é profundamente humana e, portanto, não é surpreendente que praticamente assim que houvesse computadores, e certamente assim que houvesse natural

processamento de idiomas, estávamos tentando usar computadores para responder a perguntas textuais no início dos anos 1960, havia sistemas que implementavam os dois grandes paradigmas de perguntas respondentes – perguntas baseadas em IR e baseadas no conhecimento pergunta respondendo para responder perguntas sobre estatísticas de baseball ou fatos científicos. Mesmo os computadores imaginários entraram em ação.

Pensamento profundo, o computador que Douglas Adams inventado no The Hitchhiker’s Guide to the Galaxy, conseguiu responder “A Grande Pergunta da Vida, o Universo e Tudo” (a resposta foi 42, mas infelizmente os detalhes da questão nunca foram revelados).

Mais recentemente, o sistema Watson de perguntas e respostas da IBM ganhou o show de TV Perigo! em 2011, batendo os humanos na tarefa de responder a perguntas como

WILLIAM WILKINSON “UMA CONTA DOS PRINCIPAIS DE WALLACHIA E MOLDOVIA “INSPIROU ESTE AUTOR NOVELA MAIS FAMOSA1

Embora o objetivo dos questionários seja entretenimento, a tecnologia utilizada para responder essas questões englobam e estendem o estado da arte em questão prática

respondendo, como veremos.

Os mais atuais sistemas de atendimento de perguntas se concentram em questões factuais. Questões factuais são questões que podem ser respondidas com fatos simples expressos em breve respostas de texto. As seguintes questões de fato, por exemplo, podem ser respondidas com uma cadeia curta que expressa um nome pessoal, expressão temporal ou local:

(28.1) Quem fundou a Virgin Airlines?

(28.2) Qual é a idade média do início do autismo?

(28.3) Onde é que a Apple Computer é baseada?

Neste capítulo, descrevemos os dois grandes paradigmas modernos para pergunta e resposta, com foco em sua aplicação para questões de factuais.

O primeiro paradigma é chamado de pergunta e respostas com base em IR ou, às vezes, baseado em texto e que confia na enorme quantidade de informações disponível como texto na Web ou em coleções especializadas, como o PubMed. Dado um perguntas do usuário, as técnicas de recuperação de informações extraem passagens diretamente dessas documentos, orientados pelo texto da pergunta.

O método processa a questão para determinar o tipo de resposta provável (muitas vezes

uma entidade nomeada como uma pessoa, localização ou tempo), e formula consultas para enviar para um motor de busca. O mecanismo de busca retorna os documentos classificados que são quebrados em passagens adequadas e ranqueadas. Finalmente, as possíveis resposta candidatas são extraídas das passagens e classificadas.

No segundo paradigma, a questão baseada no conhecimento responde, em vez disso

crie uma representação semântica da consulta. O significado de uma consulta pode ser um

declaração de cálculo do predicado completo. Então, a pergunta O que os Estados fazem fronteira com o Texas? do banco de dados GeoQuery sobre questões sobre Geografia dos EUA (Zelle e Mooney, 1996) – pode ter a representação:

λx.state (x) ∧borders (x, texas)

Alternativamente, o significado de uma pergunta pode ser uma relação única entre um conhecido e uma entidade desconhecida. Assim, a representação da pergunta Quando foi Ada Lovelace nasceu? poderia ser ano de nascimento (Ada Lovelace,? x).

Seja qual for o significado de representação que escolhemos, estaremos usando isso para consultar bancos de dados de fatos. Estes podem ser bancos de dados complexos, talvez de fatos científicos ou geoespaciais informação, que precisa de consultas lógicas ou SQL poderosas. Ou estes podem ser bancos de dados lojas triplas de relações simples, lojas triplas como Freebase ou DBpedia introduzidas no Capítulo 20.

Grandes sistemas práticos, como o sistema DeepQA no IBM Watson, geralmente são

sistemas híbridos, usando conjuntos de dados de texto e bases de conhecimento estruturadas para responder questões. DeepQA extrai uma grande variedade de significados da questão (parses, relações, entidades nomeadas, informação ontológica) e, em seguida, encontra um grande número de respostas candidatas em ambas as bases de conhecimento e em fontes textuais como Wikipedia ou jornais. Cada resposta candidata é então marcada usando uma grande variedade de conhecimento fontes, como bases de dados geoespaciais, raciocínio temporal, classificação taxonômica e várias fontes textuais.

Exploraremos as três abordagens: baseadas em IR, baseadas no conhecimento e

Sistema Watson DeepQA, nas próximas três seções.

28.1 Pergunta e Resposta factual baseada em IR

O objetivo da resposta de perguntas baseada em IR é responder a pergunta de um usuário ao encontrar segmentos de texto curto na Web ou alguma outra coleção de documentos. Figura 28.1 mostra alguns exemplos de perguntas de facto e suas respostas.

Questão e Resposta

Onde fica o Museu do Louvre? em Paris, França

Qual a abreviatura da parceria limitada? L.P.

Quais são os nomes dos corvos de Odin? Huginn e Muninn

Qual moeda é usada na China? o yuan

Que tipo de nozes são usadas no marzipan? amêndoas

Qual instrumento o Max Roach toca? bateria

Qual é a língua oficial da Argélia? árabe

Quantas libras existem em uma pedra? 14

Figura 28.1 Algumas amostras de perguntas de fato e suas respostas.

A Figura 28.2 mostra as três fases de uma questão de fato baseada em IV – respondendo

sistema: processamento de perguntas, recuperação de passagem e classificação, e processamento de resposta.

28.1.1 Processamento de Questões

O objetivo da fase de processamento de perguntas é extrair uma série de informações da questão. O tipo de resposta especifica o tipo de entidade a resposta consiste em (pessoa, localização, hora, etc.). A consulta especifica as palavras-chave que deve ser usado para que o sistema IR use na busca de documentos. Algum sistema também extrair um foco, que é a série de palavras na pergunta que são susceptíveis de ser substituído pela resposta em qualquer string de resposta encontrada. Alguns sistemas também classificam o tipo de pergunta: esta é uma questão de definição, uma questão de matemática, uma questão de lista? Para exemplo, para a seguinte pergunta:

Qual capital do estado dos EUA tem a maior população?

O processamento da consulta deve produzir resultados como os seguintes:

Tipo de resposta: cidade

Consulta: capital do estado dos EUA, maior, população

Foco: capital do estado

Nas próximas duas seções resumimos as duas tarefas mais usadas, respondemos detecção de tipo e formulação de consulta.

28.1.2 Detecção de Tipo de Resposta (Classificação de Perguntas)

A tarefa de classificação de perguntas ou reconhecimento de tipo de resposta é determinar a classificação da questão, tipo de resposta, entidade com nome ou classe similar categorizando a resposta. Uma pergunta como “Quem fundou a Virgin Airlines” espera uma resposta do tipo PERSON. Uma pergunta como “O que a cidade canadense tem a maior população?” espera uma resposta de tipo CIDADE. Se conhecemos o tipo de resposta para uma pergunta, podemos evitar olhar para cada frase ou frase nominal em todo o conjunto de documentos para a resposta, em vez disso concentrando-se, por exemplo, apenas em pessoas ou cidades. Como alguns dos exemplos acima sugerem, podemos desenhar o conjunto de possíveis respostas tipos para um classificador de perguntas de um conjunto de entidades nomeadas como PERSON, LOCATION, e ORGANIZAÇÃO descrita no Capítulo 20. Normalmente, no entanto, um mais rico, freqüentemente conjunto hierárquico de tipos de resposta é usado, uma taxonomia de tipo de resposta. Esse tipo de resposta fiscal taxonomia onomies podem ser construídos semi-automaticamente e dinamicamente, por exemplo, da WordNet (Harabagiu et al., 2000, Pasca 2003), ou podem ser projetados à mão.

A Figura 28.4 mostra uma dessas ontologias construídas à mão, o conjunto de tags Li e Roth (2005); um subconjunto é mostrado graficamente na figura 28.3. Neste conjunto de tags hierárquico, cada pergunta pode ser rotulado com uma etiqueta grossa como HUMAN ou uma etiqueta de grão fino como HUMANO: DESCRIÇÃO, HUMANO: GRUPO, HUMANO: IND, e assim por diante. Tags similares são usado em outros sistemas; O tipo HUMANO: DESCRIÇÃO é frequentemente chamado de BIOGRAFIA pergunta porque a resposta é necessária para dar uma breve biografia da pessoa em vez disso do que apenas um nome.

Os classificadores de perguntas podem ser construídos por meio de regras de escrita a mão, por máquina supervisionada aprendendo, ou com alguma combinação. A Webclopedia QA Typology, por exemplo

contém 276 regras manuscritas associadas aos aproximadamente 180 tipos de resposta na tipologia (Hovy et al., 2002). Uma regra de expressão regular para detectar uma resposta

digite BIOGRAFIA (o que pressupõe que a questão tenha sido nomeada – etiquetada)

pode ser (28.4) quem {é | foi | são | foram} PESSOA

Os mais modernos classificadores de questões, no entanto, são baseados em máquinas supervisionadas aprendendo e são treinados em bancos de dados de questões que foram marcadas à mão com um tipo de resposta (Li e Roth, 2002). As características típicas utilizadas para classificação incluem as palavras nas perguntas, a parte de fala de cada palavra e as entidades nomeadas em as questões.

Muitas vezes, uma única palavra na pergunta fornece informações extras sobre a resposta

tipo, e sua identidade é usada como uma característica. Essa palavra às vezes é chamada de resposta digite palavras-chave ou palavras-chave, e pode ser definido como a palavra-chave de o primeiro NP após a palavra wh-word da pergunta; as palavras-chave são indicadas em negrito no seguintes exemplos:

(28.5) Qual cidade da China tem o maior número de empresas financeiras estrangeiras?

(28.6) Qual é a flor de estado da Califórnia?

Finalmente, muitas vezes ajuda a usar informações semânticas sobre as palavras nas perguntas.

O ID de sincronização do WordNet da palavra pode ser usado como recurso, assim como os IDs do hipernym e dos hiponimos de cada palavra na pergunta.

Em geral, as precisões de classificação de perguntas são relativamente altas em questões fáceis tipos como perguntas de PESSOA, LOCALIZAÇÃO e TIME; detectando RAZÕES e

DESCRIÇÃO perguntas podem ser muito mais difíceis

28.1.3 Formulação de consulta

A formulação de consulta é tarefa de criar a partir da questão uma lista de palavras-chave que formam uma consulta que pode ser enviada para um sistema de recuperação de informações. O que exatamente a consulta para formar depende da aplicação. Se a resposta a perguntas for aplicada a Web, podemos simplesmente criar uma palavra-chave de cada palavra na pergunta, deixando o mecanismo de busca da Web remove automaticamente qualquer senha. Muitas vezes, deixamos para fora a palavra questão (onde, quando, etc.). Alternativamente, as palavras-chave podem ser formadas a partir de

apenas os termos encontrados nas frases nominais na pergunta, aplicando listas de palavras-chave para ignore palavras de função e verbos de alta freqüência e baixo conteúdo.

Quando a resposta de perguntas é aplicada a conjuntos menores de documentos, por exemplo, para responder perguntas sobre páginas de informações corporativas, ainda usamos um mecanismo de infravermelho para pesquisar nossos documentos para nós. Mas, para este conjunto menor de documentos, geralmente precisa aplicar a expansão da consulta. Na Web, a resposta a uma pergunta pode aparecer em muitas formas diferentes, então, se pesquisarmos com palavras da pergunta, provavelmente encontre uma resposta escrita na mesma forma. Em versões menores de páginas corporativas, em contraste,

uma resposta pode aparecer apenas uma vez, e a formulação exata pode parecer nada

como a pergunta. Assim, os métodos de expansão de consulta podem adicionar termos de consulta na esperança de combinando a forma particular da resposta tal como aparece.

Estes podem incluir todos variantes morfológicas das palavras de conteúdo na questão, ou sinônimos de uma tesauro.

Uma abordagem de formulação de consulta que às vezes é usada para questionar a Web é

para aplicar regras de reformulação de perguntas à consulta. As regras reformulam a pergunta para consultar reformulação faça com que pareça uma substring de possíveis respostas declarativas. A questão “quando o laser foi inventado? “pode ​​ser reformulado como” o laser foi inventado “; a pergunta “onde está o Vale dos Reis?” como “o Vale dos Reis está localizado dentro”. Aqui estão algumas regras de reformulação escritas à mão de Lin (2007):

(28.7) wh-word fez um verbo B →. . . Um verbo + ed B

(28.8) Onde está A → A está localizado em

28.1.4 Recuperação de passagem

A consulta que foi criada na fase de processamento de perguntas é usada para consulta

um sistema de recuperação de informações, um mecanismo de IR geral sobre um conjunto de documentos indexados ou um mecanismo de pesquisa na Web. O resultado desta recuperação de documentos o estágio é um conjunto de documentos.

Embora o conjunto de documentos seja geralmente classificado por relevância, o melhor o documento provavelmente não é a resposta à pergunta. Isso ocorre porque documentos não é uma unidade apropriada para classificar em relação aos objetivos de uma pergunta-respondendo sistema. Um documento altamente relevante e grande que não responde de forma proeminente a pergunta não é um candidato ideal para processamento posterior.

Portanto, a próxima etapa é extrair um conjunto de possíveis passagens de resposta de o conjunto recuperado de documentos. A definição de uma passagem é necessariamente um sistema dependentes, mas as unidades típicas incluem seções, parágrafos e frases. Nós pode executar um algoritmo de segmentação de parágrafo em todos os documentos devolvidos e trate cada parágrafo como um segmento.

Em seguida, realizaremos a recuperação da passagem. Nesta fase, primeiro filtramos passagens em passagem recuperação os documentos devolvidos que não contêm respostas potenciais e depois classificam o resto de acordo com a probabilidade de conter uma resposta à pergunta.

O primeiro passo neste processo é executar uma entidade nomeada ou classificação de tipo de resposta no recuperado passagens. O tipo de resposta que determinamos a partir da questão nos diz o possível tipos de resposta que esperamos ver na resposta. Podemos, portanto, filtrar documentos que não contenham nenhuma entidade do tipo certo.

As passagens remanescentes são então classificadas, geralmente por meio de aprendizado automático de máquinas, dependendo de um pequeno conjunto de recursos que podem ser facilmente extraídos de um potencial grande número de passagens de respostas, tais como:

• O número de entidades nomeadas do tipo certo na passagem

• O número de palavras-chave de pergunta na passagem

• A seqüência exata mais longa das palavras-chave de pergunta que ocorre na passagem

• A classificação do documento a partir do qual a passagem foi extraída

• A proximidade das palavras-chave da consulta original entre si

• Para cada passagem, identifique o intervalo mais curto que abrange as palavras-chave contidas

naquela passagem. Preferem intervalos menores que incluem mais palavras-chave (Pasca 2003,

Monz 2004).

• O N-grama se sobrepõe entre a passagem e a pergunta conte os N-gramas na pergunta e os N-gramas nas passagens da resposta. Preferem as passagens com maior N-grama se sobrepõem com a pergunta (Brill et al., 2002).

Para responder perguntas da Web, em vez de extrair passagens de todos documentos devolvidos, podemos confiar na pesquisa na Web para fazer extração de passagem para nos. Fazemos isso usando fragmentos produzidos pelo mecanismo de pesquisa da Web como o devolvido passagens. Por exemplo, a Fig. 28.5 mostra fragmentos para os cinco primeiros documentos retornados do Google para a consulta Quando foi o tipo de impressão de metal móvel inventado na Coréia?

28.1.5 Processamento de respostas

A fase final da pergunta respondendo é extrair uma resposta específica da passagem de modo a poder apresentar ao usuário uma resposta como 29.029 pés para a pergunta “Quão alto é Mt. Everest? “

Duas classes de algoritmos foram aplicadas à tarefa de resposta-extração, uma com base na extração de padrão de tipo resposta e um baseado em mosaico N-gram.

Nos métodos de extração de padrões para processamento de resposta, usamos informações sobre o tipo de resposta esperado juntamente com padrões de expressão regulares. Por exemplo, para perguntas com um tipo de resposta HUMANO, nós executamos o tipo de resposta ou nomeado etiquetador de entidade na passagem ou sentença do candidato e devolve qualquer entidade rotulada com o tipo HUMAN. Assim, nos seguintes exemplos, o sublinhado chamado as entidades são extraídas das passagens de respostas candidatas como a resposta ao HUMANO e DISTANCE-QUANTITY perguntas:

“Quem é o primeiro ministro da Índia”

Manmohan Singh, primeiro-ministro da Índia, disse aos líderes da esquerda que o acordo não seria renegociado.

“Quão alto é Mt. Everest? “

A altura oficial do Monte Everest é de 29029 pés

Infelizmente, as respostas a algumas perguntas, como perguntas de DEFINIÇÃO, não tendem a ser de um determinado tipo de entidade. Para algumas perguntas, então, em vez disso, de usar tipos de resposta, usamos padrões de expressão regular escritos à mão para ajudar a extrair a resposta. Esses padrões também são úteis nos casos em que uma passagem contém vários exemplos do mesmo tipo de entidade nomeada. A Figura 28.6 mostra alguns padrões

de Pasca (2003) para a frase de pergunta (QP) e frase de resposta (AP) de definição questões.

Os padrões são específicos para cada tipo de pergunta e podem ser escritos à mão ou aprendido automaticamente usando métodos de extração de relação. Os padrões podem então ser usado em conjunto com outras informações como recursos em um classificador que classifica o candidato respostas. Nós extraímos respostas potenciais usando entidades ou padrões nomeados ou mesmo apenas observando todas as sentenças retornadas da recuperação da passagem e classificando-as usando um classificador com recursos como o seguinte.

Correspondência de tipo de resposta: Verdadeiro se a resposta do candidato contiver uma frase com a correção tipo de resposta.

Correspondência de padrões: a identidade de um padrão que corresponde à resposta do candidato.

Número de palavras-chave de perguntas correspondentes: quantas palavras-chave de perguntas estão contidas na resposta do candidato.

Distância da palavra-chave: a distância entre a resposta do candidato e as palavras-chave da consulta (medido em número médio de palavras ou como número de palavras-chave que ocorrem na mesma frase sintática que a resposta do candidato).

Fator de novidade: Verdadeiro se pelo menos uma palavra na resposta do candidato for nova, ou seja, não na consulta.

Características da aposição: Verdadeiro se a resposta do candidato for um appositive para uma frase contendo muitos termos de perguntas. Pode ser aproximado pelo número de perguntas termos separados da resposta do candidato por no máximo três palavras e

uma vírgula (Pasca, 2003).

Local de pontuação: Verdadeiro se a resposta do candidato for imediatamente seguida por um vírgula, período, aspas, ponto e vírgula ou ponto de exclamação.

Seqüências de termos de perguntas: o comprimento da seqüência mais longa da questão

termos que ocorrem na resposta do candidato.

Uma abordagem alternativa para extração de respostas, usada exclusivamente na busca na Web, é Azulejo N-grama com base em mosaico de N-grama, às vezes chamado de abordagem baseada em redundância (Brill et al. 2002, Lin 2007). Este método simplificado começa com os fragmentos retornados a partir do mecanismo de pesquisa da Web, produzido por uma consulta reformulada. No primeiro passo, Mineração de gramática N-grama extra, cada unigram, bigram e trigram que ocorrem no trecho são extraídos e ponderada. O peso é uma função do número de trechos em que ocorreu o N-grama e o peso do padrão de reformulação de consulta que retornou

isto. No passo de filtragem de N grama, N-gramas são marcados com a forma como eles combinam N-grama filtragem o tipo de resposta previsto. Essas pontuações são computadas por filtros manuscritos construídos para cada tipo de resposta. Finalmente, um algoritmo de mosaico N-gram concatena sobreposição N-gram fragmentos em respostas mais longas. Um método ganancioso padrão é começar com o candidato de maior pontuação e tente se marcar o candidato com este candidato.

A concatenação de melhor pontuação é adicionada ao conjunto de candidatos, a pontuação mais baixa o candidato é removido e o processo continua até que uma única resposta seja construída. Para qualquer desses métodos de extração de respostas, a frase de resposta exata pode ser apenas apresentado ao usuário por si só, ou, com mais utilidade, acompanhado de passagem suficiente informações para fornecer um contexto útil.

28.2 Perguntas relacionadas ao conhecimento Resposta

Enquanto uma enorme quantidade de informações é codificada na grande quantidade de texto na internet, a informação obviamente também existe em formas mais estruturadas. Nós usamos o termo questão baseada no conhecimento respondendo pela idéia de responder a um processo natural pergunta de idioma, mapeando-a para uma consulta sobre um banco de dados estruturado.

Como o baseado em texto paradigma para perguntas respondidas, essa abordagem remonta aos primeiros dias de processamento de linguagem natural, com sistemas como BASEBALL (Green et al., 1961) que respondeu perguntas de um banco de dados estruturado de jogos de baseball e estatísticas.

Os sistemas para mapeamento de uma seqüência de texto para qualquer forma lógica são chamados de semântica analisadores (???). Analisadores semânticos para responder perguntas respondem geralmente a alguns versão do cálculo de predicado ou uma linguagem de consulta como SQL ou SPARQL, como no exemplos na figura 28.7

A forma lógica da questão é, portanto, na forma de uma consulta ou pode facilmente ser convertido em um. O banco de dados pode ser um banco de dados relacional completo ou mais simples bancos de dados estruturados, como conjuntos de triplos RDF. Lembre-se do Capítulo 20 de que um RDF triplo é uma 3-tupla, um predicado com dois argumentos, expressando alguma relação simples ou proposição. Ontologias populares como Freebase (Bollacker et al., 2008) ou DBpedia (Bizer et al., 2009) têm um grande número de triplos derivados de infoboxes da Wikipédia, as tabelas estruturadas associadas a certos artigos da Wikipédia.

A formação mais simples da tarefa de resposta à pergunta baseada no conhecimento é responde questões de facto que perguntam sobre um dos argumentos faltantes em um triplo.

Considere um triplo RDF como o seguinte:

objeto sujeito sujeito

Ada Lovelace ano de nascimento 1815

Este triplo pode ser usado para responder perguntas de texto como ‘Quando foi Ada Lovelace

Nascido? “ou” Quem nasceu em 1815? “. A pergunta que responde neste paradigma requer

Mapeamento de cordas textuais como “Quando foi … nascido” para as relações canônicas na base de conhecimento como ano de nascimento. Podemos esboçar esta tarefa como:

“Quando Ada Lovelace nasceu?” → ano de nascimento (Ada Lovelace,? X)

“Qual é a capital da Inglaterra?” → capital-cidade (? X, Inglaterra)

28.2.1 Métodos baseados em regras

Para as relações que são muito frequentes, pode valer a pena escrever regras manuscritas

para extrair as relações da questão, tal como vimos na Seção ??. Por exemplo, para extraia a relação ano-ano, podemos escrever padrões que buscam a questão palavra Quando, um verbo principal como nascido, e que extrai o argumento de entidade nomeada do verbo.

28.2.2 Métodos supervisionados

Em alguns casos, temos dados supervisionados, consistindo de um conjunto de perguntas emparelhadas com sua forma lógica correta, como os exemplos da figura 28.7. A tarefa é então levar esses pares de tuplas de treinamento e produzir um sistema que mapeie de novas perguntas para suas formas lógicas.

A maioria dos algoritmos supervisionados para aprender a responder a essas perguntas simples sobre as relações primeiro analisam as questões e, em seguida, alinham as árvores de análise para a forma lógica.

Geralmente, esses sistemas são iniciados por ter um pequeno conjunto de regras para construir este mapeamento e um léxico inicial também. Por exemplo, um sistema pode ter cordas para cada uma das entidades do sistema (Texas, Ada Lovelace) e, em seguida, tem regras padrão simples mapeando fragmentos da árvore de análise de perguntas para particular relações:

Então, tendo em conta estas regras e o léxico, uma tupla de treino como a seguinte:

“Quando Ada Lovelace nasceu?” → ano de nascimento (Ada Lovelace,? X)

primeiro seria analisado, resultando no seguinte mapeamento.

De muitos pares como este, podemos induzir mapeamentos entre parches fragmento, como o mapeamento entre o fragmento de análise na parte esquerda e a relação a direita:

Um sistema supervisionado analisaria cada uma das tuplas no conjunto de treinamento e induziria um maior conjunto de regras específicas, permitindo mapear exemplos não vistos de “When was X nascido? “Perguntas para a relação ano-ano. As regras também podem ser associadas com contagens com base no número de vezes que a regra é usada para analisar o treinamento dados. Como a regra conta para gramáticas probabilísticas, estas podem ser normalizadas em probabilidades.

As probabilidades podem então ser usadas para escolher a análise de maior probabilidade

para frases com múltiplas interpretações semânticas. A abordagem supervisionada pode ser ampliada para lidar com questões mais complexas não se trata apenas de relações individuais. Considere a questão Qual é o maior Estado que faz fronteira com o Texas? do conjunto de dados GEOQUERY (Zelle e Mooney, 1996) com a forma semântica:

argmax (λx.state (x) ∧borders (x, texas), λx.size (x))

Esta questão tem estruturas muito mais complexas do que a simples relação única perguntas que consideramos acima, como a função argmax, o mapeamento da palavra maior a tamanho e assim por diante. Zettlemoyer e Collins (2005) mostram como mais regras padrão complexas (juntamente com estruturas sintáticas mais ricas) podem ser usadas para aprender a mapa de frases de texto para formas lógicas mais complexas. As regras tomam o treinamento conjunto de sentenças e significado como acima e use as regras complexas para quebrar cada exemplo de treino em pequenas ligações que podem então ser recombinadas para analisar novas frases.

28.2.3 Tratamento da variação: métodos semi-supervisionados

Porque é difícil criar conjuntos de treinamento com perguntas rotuladas com seu significado

representação, conjuntos de dados supervisionados não podem cobrir a grande variedade de formas que mesmo as questões simples de facto podem ser feitas. Por esta razão, a maioria das técnicas de mapeamento questões de fato para as relações canônicas ou outras estruturas em bases de conhecimento encontre alguma maneira de usar a redundância textual.

A fonte mais comum de redundância, é claro, é a web, que contém grande número de variantes textuais que expressam qualquer relação. Por esse motivo, a maioria dos métodos

faça uso do texto da Web, seja através de métodos semi-supervisionados como distantes

supervisão ou métodos não supervisionados, como extração de informações abertas, ambos introduzidos no Capítulo 20. Por exemplo, o extractor de informações abertas do REVERB (Fader et al., 2011) extrai bilhões de (sujeito, relação, objeto) triplos de cordas do

web, como (“Ada Lovelace”, “nasceu em”, “1815”). Alinhando essas strings com uma fonte de conhecimento canônico como a Wikipédia, criamos novas relações que podem ser consultado ao mesmo tempo aprender a mapear entre as palavras em questão e relações canônicas.

Para alinhar um triplo REVERB com uma fonte de conhecimento canônico, alinhemos primeiro os argumentos e depois o predicado. Lembre-se do Capítulo 23 que liga uma string A entidade que liga como “Ada Lovelace” com uma página da Wikipedia é chamada de entidade que liga; representamos assim o conceito ‘Ada Lovelace’ por um identificador exclusivo de uma página da Wikipédia. E se esta seqüência de assunto não está associada a uma página única na Wikipédia, podemos desambiguar qual a página que está sendo buscada, por exemplo, usando a distância coseno entre a corda tripla (‘Ada Lovelace nasceu em 1815’) e cada candidato Página de Wikipedia. As cadeias de data como ‘1815’ podem ser transformadas em uma forma normalizada usando ferramentas padrão para normalização temporal como SUTime (Chang e Manning,

2012).

Uma vez que alinhamos os argumentos, alinhamos os predicados. Dado o Freebase relação people.person.birthdate (ada lovelace, 1815) e a corda “Ada Lovelace nasceu em 1815”, tendo ligado Ada Lovelace e normalizado 1815, aprendemos o mapeamento entre a string “nasceu” e a relação people.person.birthdate.

No caso mais simples, isso pode ser feito alinhando a relação com a cadeia de palavras entre os argumentos; Algoritmos de alinhamento mais complexos Como IBM Model 1 (Capítulo 25) pode ser usado. Então, se uma frase alinha com uma predicado em muitas entidades, pode ser extraído para um léxico para o mapeamento de perguntas para as relações.

Aqui estão alguns exemplos de um léxico resultante, produzido por Berant et al. (2013), dando muitas variantes de frases que se alinham com a relação Freebase country.Capital entre um país e sua capital:

Outra fonte útil de redundância linguística são parafrasear bancos de dados. Por exemplo o site wikianswers.com contém milhões de pares de perguntas que os usuários ter marcado como tendo o mesmo significado, dos quais 18 milhões foram coletados no corpus PARALEX (Fader et al., 2013). Aqui está um exemplo:

P: Quais são as bolhas verdes nas células da planta?

Sinônimos de PARALEX:

Qual a gota verde na célula vegetal?

O que é parte verde na célula vegetal?

Qual a parte verde de uma célula vegetal?

Qual a substância verde na célula vegetal?

Qual a parte da célula vegetal que lhe dá cor verde?

Qual parte da célula que a planta tem que permite que a planta dê uma cor verde?

Que parte da célula da planta fica verde?

parte da célula da planta onde a célula obtém a cor verde?

A parte verde de uma planta deve ser chamada?

A parte da célula da planta que faz a planta verde ser chamada?

Os milhões de pares de paráfrases de perguntas resultantes podem ser alinhados a cada um outros usando abordagens de alinhamento MT (como IBM Model 1) para criar um estilo MT. tabela de frases para tradução de frases de perguntas para frases sinônimas. Estes são usados por uma série de modernos algoritmos de resposta a perguntas, gerando todas as paráfrases de uma pergunta como parte do processo de encontrar uma resposta (Fader et al., 2013, Berant e Liang 2014).

28.3 Usando várias fontes de informação: o Watson da IBM

Claro que não há nenhuma razão para limitar-nos a apenas baseado em texto ou baseados no conhecimento recursos para perguntas respondidas. O sistema Watson da IBM que ganhou o Jeopardy! desafio em 2011 é um exemplo de um sistema que depende de uma grande variedade de recursos para responder perguntas.

A Figura 28.9 mostra os 4 estágios do sistema DeepQA que é a pergunta respondendo

componente do Watson. A primeira etapa é o processamento de questões. O sistema DeepQA executa a análise, nomeado etiquetagem de entidades e extração de relação na questão. Então, como o texto sistemas na Seção 28.1, o sistema DeepQA extrai o foco, o tipo de resposta (também chamado de tipo de resposta lexical ou LAT) e executa a classificação de perguntas e seção de perguntas.

Considere estes Jeopardy! exemplos, com uma categoria seguida de uma pergunta: Poetas e poesia: ele era um funcionário do banco no Yukon antes de publicar “Songs of a Sourdough” em 1907.

THEATRE: uma nova peça baseada neste Sir Arthur Conan Doyle canine clássico aberto no palco de Londres em 2007.

As perguntas são analisadas, as entidades nomeadas são extraídas (Sir Arthur Conan Doyle identificado como PESSOA, Yukon como ENGENHEIRA GEOPOLÍTICA, “Canções de um Sourdough” como uma COMPOSIÇÃO), a coreferência é executada (ele está vinculado com o funcionário) e as relações Como são extraídos os seguintes:

Autorof (foco, “Songs of sourdough”)

publicar (e1, ele, “Canções de um sourdough”)

in (e2, e1, 1907) temporallink(publish(…), 1907)

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *