|
Rastrear con mayor precisión RAFAEL A. CALVO informatica2@inf.clarin.com.ar Uno de los grandes desafíos que persigue la tecnología de los buscadores son las bases de datos multimediales. Grandes almacenes virtuales adonde se pueda acceder para buscar información gráfica (como ser una fotografía) sin tener que tipiar los caracteres que guíen la búsqueda, como se hace hasta ahora. Y se pueda, en cambio, encontrar lo deseado por medio de órdenes orales o gráficas. Cuando los proyectos que impulsan algunos investigadores se hagan realidad, quien quiera encontrar en la Web una fotografía, por ejemplo, de Diego Maradona, lo podrá hacer a partir de otra foto del astro del fútbol argentino. Y, al parecer, para acceder a estas ventajas no habrá que esperar mucho tiempo, porque este tipo de bases de datos estarán disponibles en Internet a muy corto plazo. El Informedia Group, por ejemplo, están desarrollando sistemas de almacenamiento y de búsqueda de video utilizando texto y sonido. La base de datos con que trabajan es de sólo 1.000 horas de video, y requiere aproximadamente 1.000 gigabytes para su almacenamiento. Un ejemplo interesante de este tipo de tecnología es el uso de mapas de ciudades estadounidenses disponibles en Yahoo!, donde se ingresan las direcciones de origen y destino (texto) y el programa muestra un mapa (imagen) e instrucciones detalladas de cómo llegar al destino. También los avances en las llamadas tecnologías del lenguaje tienen lo suyo para decir en este tema. Porque, gracias a ellas, las bases de datos multimedia serán algún día accesibles en lenguaje hablado y en cualquier idioma. Un poco de historia Los buscadores, se sabe, son aquellos programas que se utilizan para obtener información de bases de datos. Estas bases de datos suelen almacenar texto (como en las bibliotecas) pero también pueden incluir sonido o imágenes. Todos los internautas saben que navegar en la Web sería imposible, o una gran pérdida de tiempo, si no fuese gracias a los buscadores como Lycos, Yahoo!, Hotbot o el buscador de Clarín. Esto fue reconocido por Michael Mauldin y otros a principios de los 90. Mauldin trabajaba en la Universidad de Carnegie Mellon, cuando diseñó Lycos y fundó una empresa con este nombre en 1995. Lycos y los otros buscadores consisten en programas llamados "robots" o "arañas" que están constantemente navegando en Internet buscando nueva información, que es almacenada en grandes bases de datos. Las tecnologías del lenguaje están detrás de todos estos sistemas, que son muy similares a los programas que desde hace años buscan libros en las bibliotecas. Con la salvedad de que el catálogo de una biblioteca contiene todos los libros disponibles, que no suelen ser más de un millón. En Internet, en cambio, la cantidad de información crece más rápido, es variable (las páginas cambian, los servidores dejan de funcionar) y multimedia. Esto hace el problema técnico aún más interesante. Archivo dado vuelta Tradicionalmente, un catálogo de documentos funciona generando primero un "archivo invertido". La idea es que lo más eficiente suele ser tener un índice que para cada palabra indique los documentos que la contienen, de manera que cuando uno hace una búsqueda de la palabra "Borges", por ejemplo, en una base de datos, el programa no tiene que buscar en cada uno de los registros, va al archivo invertido donde ya tiene registrado qué documentos la contienen. Si la búsqueda consiste en tres palabras, como "Jorge", "Luis" y "Borges", el programa buscará los documentos que contienen las tres palabras simultáneamente. Una de las características clave de los servicios de información es la capacidad de suministrar datos que cubran de forma selectiva las necesidades inmediatas y reales de quien busca los datos. No basta con proporcionar un montón de información que caiga más o menos en lo requerido y que luego el usuario filtre lo que considere necesario. Tampoco es aceptable que el método utilizado para encontrar información presente omisiones importantes. Sin embargo, desde su origen, se observó que el tipo de técnicas como el diccionario invertido no suelen ser suficientes y los resultados sufren de los dos tipos de males recién mencionados: es decir, la falta de precisión y las omisiones ("recall"). Al recall se lo podría ejemplificar de este modo: supongamos que alguien está buscando al "Llanero Solitario" en una base de datos de películas. Si no recuerda el nombre exacto y el requerimiento al buscador consiste en "serie televisiva sobre cowboys", un sistema de diccionario invertido no encontraría ningún documento relevante, pues no existen palabras en común entre el título de la serie buscada y el pedido hecho al buscador. Sin embargo, la tecnología ha evolucionado y los nuevos algoritmos permiten encontrar películas (o documentos) aunque las palabras que se usan para impulsar la búsqueda no estén contenidas en el título o documento en cuestión. Sin embargo, estos nuevos sistemas no resuelven el tema de la falta de precisión. En el ejemplo anterior, el sistema ofrecerá como resultado de la búsqueda todas las series de cowboys, lo que significa que se tendrá que leer una lista bastante larga antes de encontrar la que se buscaba. Este suele ser el mayor problema en los buscadores de Internet, por eso es habitual obtener cientos de sitios "relativamente" relacionados a lo que se estaba buscando. Matemática y lingüistas Detrás de escena que muestran en los monitores de sus visitantes, los sistemas de búsqueda suelen tener una matemática bastante sofisticada. Cada documento suele representarse como un vector donde cada palabra del diccionario es una dimensión. Es decir que estos sistemas usan vectores de miles de dimensiones. La cantidad de cómputo requerida al realizar cualquier operación algebraica es entonces una variable a considerar, pues en bases de datos grandes puede hacerse virtualmente inmanejable. Debido a este tipo de problemas, los científicos que trabajan en esta área suelen venir de campos tan variados como la matemática, la física o la estadística. Por supuesto, los lingüistas también aportan interesantes soluciones, analizando cómo las estructuras sintácticas y gramaticales de los documentos (y de las búsquedas) pueden ser utilizadas para mejorar los resultados. Por ejemplo, para reducir la dimensión de estos vectores se ha encontrado que borrar artículos y pronombres de la base de datos no afecta los resultados y la dimensión del problema se ve drásticamente reducida. También se pueden eliminar los sufijos que indican plural o tiempo de verbo. Así: "casa" y "casas" son representados como una sola dimensión, o "cantaste" y "cantaré" pueden ser reducidos a un solo término: "canta", llamado raíz (no necesariamente una palabra). Por este motivo, al efectuar una búsqueda, no suele ser demasiado útil usar varias conjugaciones de un verbo, plurales y artículos. Links: Lycos: http://www.lycos.com Hotbot: http://www.hotbot.com uscador Clarín: http://www.buscador.clarin.com.ar Informedia Group: http://www.informedia.cs.cmu.edu/ |