Novo
Agora IDGNow! é IT Midia.com
Fazer login no IT Mídia Redefinir senha
Bem-vindo de volta,
Digite seu e-mail e clique em enviar
Ainda não tem uma conta? Cadastre-se
Logo ITMidia
Logo ComputerWorld
Logo PCWorld
Logo CIO
Logo ITForum
Salvar em Nova pasta de favoritos

+

Criar pasta
Últimos favoritos Ver todos
Últimas notícias do conteúdo : Ver todos
Entrevista: Barney Pell, o homem que faz máquinas entenderem palavras
Entrevista: Barney Pell, o homem que faz máquinas entenderem palavras
Home > Internet

Entrevista: Barney Pell, o homem que faz máquinas entenderem palavras

São Paulo – Fundador do PowerSet explica como buscador semântico funciona e detalha possível integração com serviço de busca da Microsoft.

Guilherme Felitti, editor-assistente do IDG Now!

07/08/2008 às 20h13

Foto:

entrevistas_barneypell_88.jpgApós a malfadada estratégia de aquisição do Yahoo, a menina dos olhos da Microsoft em busca atende pelo nome de PowerSet.

Em julho de 2008, a Microsoft anunciou que gastaria 100 milhões de dólares para integrar o sistema de busca semântica lançado em beta no final de 2007 após acordo com o Xerox PARC, responsável, entre outras invenções, pela criação da interface gráfica e do Ethernet.

Ao contrário do tradicional método de buscas usado à exaustão hoje em dia, que confia em termos, o PowerSet se apóia na audaciosa idéia de desconstruir frases para entender seus sentidos e organizar uma biblioteca semântica.

Em outras palavras, o que vale não é a presença das palavras que você digitou no serviço, mas sim o sentido por trás delas, da mesma maneira que humanos se esforçam para decifrar a história por trás dos milhares de parágrafos de um livro.

No Brasil para participar do Search Marketing Expo 2008, o fundador da PowerSet, Barney Pell, conversou com o IDG Now! sobre os fundamentos do serviço, suas limitações e como máquinas podem entender o significado de palavras.

A aquisição da Microsoft parece ser assunto proibido – ainda que se esforce para se esquivar das perguntas relacionadas, Pell detalha como o PowerSet poderá ser integrado ao Windows Live Search, que agoniza publicamente enquanto Google e Yahoo lideram o setor.

Quais são os conceitos fundamentais de busca por trás do PowerSet?
A idéia central é ter sistemas que, ao invés de lidar apenas com requisições que busquem palavras-chave no documento, poderia lidar com a semântica e o sentido da linguagem que você poderia ter outro nível de resultados. Ao invés de palavras, você pode buscar sentidos.
++++
Para fazer isto, o sistema tem que ler cada documento que será oferecido ao usuário, uma sentença por vez, como os humanos fazem. Isto consome muito poder de computação, talvez 100 vezes mais do que os buscadores tradicionais exigem.

Enquanto lê cada sentença, o buscador entende a sua estrutura sintática (como nomes e verbos integrados, algo que você aprende na escola) e "transforma" esta estrutura em significado, criando uma representação do que cada sentença quer dizer organizada em um índex semântico.

O sistema então bate o sentido das buscas dos usuários, que podem ser feitas por perguntas ou frases, com os sentidos das frases armazenadas neste índex semântico, oferecendo resultados mais relevantes e variados como respostas objetivas para questões ou um sumário detalhado sobre o assunto.

Tecnicamente, esta tecnologia foi chamada de gramática léxico-funcional pelo Xerox PARC, onde também foi inventada a interface gráfica para o usuário.

Nos anos 70, eles conduziram duas linhas de pesquisa envolvendo interfaces - a interface gráfica para usuário (da sigla em inglês, GUI) e a interface de conversação para usuário (da sigla em inglês, CUI), que demoraria muito mais tempo para se desenvolver.

A interface gráfica se tornou comercial dez anos depois da pesquisa, com o Macintosh e o Windows, enquanto a CUI demorou mais - apenas em 2005, quando eu fundava a PowerSet, soube que a Xerox PARC tinha chegado à conclusão de que sua tecnologia estava pronta.
++++
O que a companhia fez para sofisticar a tecnologia do PARC para seu lançamento comercial?
O PARC passou anos tentando resolver os problemas de pesquisa para tentar desvendar o sentido das frases, uma por vez.

No entanto, [a tecnologia] não havia sido integrada à busca ou em grande escala. O que o PowerSet fez foi juntar um time de pesquisadores de inteligência artificial e engenheiros e criar um sistema que poderia funcionar em grande escala.

Bibliotecas processadas até então pelo PARC tinham até 10 mil documentos. O PowerSet fez com que a tecnologia funcionasse em um repositório como a Wikipedia, que tem 5 milhões de documentos, preparando todos os recursos necessários para tal.

Tivemos que nos focar na experiência para o usuário para realmente transformar (a tecnologia) em um produto que poderia ser entendido e que poderia continuar a ser melhorado, processo natural para uma tecnologia que você tira do ambiente de pesquisa e leva ao público em geral.

Qual é a principal dificuldade enfrentada atualmente por buscadores semânticos?
Serviços de busca semântica já estão chegando ao ponto onde são úteis aos usuários normais. Antes disto, eram restritos a um público muito pequeno, com exigência de conhecimentos de engenharia.

Serviços novos, como o PowerSet, podem trabalhar em qualquer tipo de conteúdo e já são úteis. Estamos nos primeiros dias, contudo, já que muito da tecnologia semântica desenvolvida tem recursos para ser aplicada em toda a internet ou acrescentar todos os tipos de conhecimento ao cruzamento de termos que produzem resultados de qualidade.
++++
Além disto, as empresas que apóiam a tecnologia ainda não têm os recursos suficientes para cumprir todas as tarefas básicas de busca quando você opera um serviço em massa. Com a aquisição pela Microsoft, poderemos ter os recursos financeiros e a infra-estrutura necessária para resolver estes problemas nos próximos anos.

Outro problema é fazer com que a tecnologia funcione com diferentes línguas. Por exemplo, para aplicar a tecnologia do PowetSet no mercado brasileiro, teremos que ensinar a linguagem básica do português, com seu contexto e dicionário.

A notícia boa é que a tecnologia criada pelo PARC suporta múltiplos idiomas, o que significa que grande parte do entendimento pode ser aplicado em diferentes línguas, da mesma maneira que bebês nascem com a habilidade de entender muitos dialetos e são treinados em apenas um.

Poderemos esperar versões do PowerSet em vários idiomas além do inglês norte-americano?
Sim, podemos. Muitos elementos já foram integrados durante o desenvolvimento da tecnologia (10 idiomas, talvez) e agora só precisamos de aplicações comerciais para lançarmos produtos do tipo.

Como o PowerSet lidará com a busca de imagens, algo que o Google ainda não alcançou a qualidade que tem nos resultados baseados em texto?
Particularmente, acho que não existe ninguém (no setor de buscas) que seja bom em tudo. Fotografias exigem tecnologias que podem, por exemplo, analisar o texto ao seu redor, algo que o PowerSet terá vantagem dado seu entendimento de contextos.

Mais no futuro, ainda é possível aplicar reconhecimento visual nas fotos, o que exigirá muitas pessoas trabalhando nos conceitos que nortearão esta classificação em fotografias ou vídeos.
++++
Entendimento de linguagem natural é muito importante, mas também precisamos de outras tecnologias de inteligência artificial para aumentar a capacidade de o algoritmo resolver estas questões.

Em quais mercados de nicho você vê possibilidades de crescimento para buscadores?

Acho que existe uma tendência tremenda em buscadores especializados. Podemos pegar qualquer tipo de mercado de nicho e descobrir um alto valor que justificaria, seja em viagens, compras, saúde ou mesmo informações sobre gatos.

Parte do desafio sempre foi encarar o fato que muito do esforço despendido no nicho não vale em muitos casos o retorno financeiro que seria registrado mais tarde pelo seu tamanho.

A primeira onda de busca, dominada pelo Google, envolvia um site para todos já que a melhoria tecnológica beneficiava todos os nichos. Agora, os buscadores já se provaram lucrativos e a audiência está crescendo mesmo em serviços de nicho.

Acho que veremos plataformas que permitam a criação de buscadores especializados sem todo o trabalho envolvido por trás do desenvolvimento e isto será uma grande parte do ecossistema de busca.

Este é um caminho para o PowerSet integrado ao Windows Live Search?

Existem muitos caminhos para integrar o PowerSet dentro do Windows Live Search. Claramente, existem algumas buscas verticais que já demonstram valor e que nós continuaremos explorando.

O PowerSet nasceu fazendo buscas na Wikipedia, então é natural que usuários do Live Search se beneficiem deste sistema.

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter por e-mail Newsletter por e-mail
Vai um cookie?

A IT Mídia usa cookies para personalizar conteúdo e anúncios, para melhorar sua experiência em nosso site. Ao continuar, você aceitará o uso. Para mais detalhes veja nossa Política de Privacidade.

Este anúncio desaparecerá em:

Ir para o site