martes, 16 de julio de 2013

Agentes para recuperación de información

Autor:
PhD. Guillermo Choque Aspiazu
http://www.eldiario.net/
Publicado en:
Marzo 9 de 2009

La información reviste su carácter de “bien” sostenido en actividades de “servicio” porque es el medio a partir del cual las organizaciones adquieren un conocimiento como un “valor” que fácilmente se cataloga como valor económico en la medida en que se capitaliza, renta, ofrece, demanda, gasta y produce. De igual manera la información puntualiza el crecimiento de las organizaciones a un nivel de empoderamiento económico en la medida en que rescata el patrimonio histórico de las mismas, fortalece el posicionamiento de éstas en un mercado y por último asegura la viabilidad de su proyección a las oportunidades de negocio: la información es un bien económico, y se comporta como tal. “Cuesta dinero, vale dinero, y su gestión produce dinero”.

La recuperación de la información es una operación en la que se interpreta una necesidad de información de un usuario y se seleccionan los documentos más relevantes capaces de solucionarla. En el contexto de Internet, se puede definir el objetivo de la recuperación como la identificación de una o más referencias de aplicaciones Web que resulten relevantes para satisfacer una necesidad de información del usuario. La recuperación de información en la Web se realiza mediante los denominados motores de búsqueda. a los cuales se les ha denominado con otros términos sinónimos, tales como: buscadores, rastreadores, webcrawlers, agentes, índices y directorios. Los mayores motores de búsqueda apenas cubren un 25% de la Web, mientras que los principales índices es dudoso que lleguen a un 5%. La desventaja de este ingente volumen de información es que, por razones de celeridad en la respuesta, obliga a limitar las prestaciones de búsqueda de forma que suelen faltar ciertas capacidades avanzadas. Otros problemas importantes derivan de la diferente cobertura de la red, el elevado porcentaje de enlaces no activos y la desactualización de los recursos debido a la frecuencia de revisión muy baja o inadecuada.


Un índice temático es una página Web o un sitio Web, en donde, las distintas materias se encuentran organizadas en torno a un conjunto de epígrafes. En general, la diferencia radica en el hecho de que los índices temáticos contienen direcciones que son recopiladas, organizadas y clasificadas manualmente y la búsqueda se lleva a cabo exclusivamente sobre los recursos indexados del directorio. Los agentes inteligentes pueden realizar una serie de tareas sin que los humanos u otros agentes les tengan que decir qué hacer a cada paso que dan en su camino. Se diferencian de los motores de búsqueda en que éstos albergan contenidos estáticos, aunque se actualizan con cierta frecuencia, y responden directamente a las peticiones de los usuarios. Si un motor de búsqueda pudiera almacenar peticiones de los usuarios y notificarles la llegada de información útil, entonces el motor de búsqueda sería un agente.

Los directorios o índices presentan una selección de recursos Web organizados de acuerdo a una estructura o clasificación jerárquica de materias que van desde categorías más amplias a categorías más específicas. Los directorios se exploran mediante la navegación de una base de datos de documentos Web compilados, recogidos y organizados manualmente por expertos, colaborados por robots de localización automática de recursos en la red. La búsqueda jerárquica sirve al usuario de guía, permitiendo acceder a la información en el contexto temático al que pertenece y en relación con otras áreas temáticas. Los directorios también presentan un motor de búsqueda interno para localizar directamente recursos de la base de datos, mediante diferentes ecuaciones de búsqueda y palabras clave, obviando de esta manera el uso del directorio temático. Los sistemas de búsqueda por palabras pueden actuar de dos maneras: (1) Sobre la clasificación, en una sección de ella, cuando por ejemplo, se sabe en qué parte del directorio es posible localizar información interesante. (2) Sobre las páginas, pero en este caso se limitan a la información recopilada por el índice, fundamentalmente sobre sitios Web. De esta manera, la búsqueda de información en los directorios puede hacerse bien de forma guiada, mediante clasificaciones jerárquicas, o bien a partir de términos específicos.

Los motores de búsqueda o buscadores tienen sus antecedentes en los simples listados de direcciones de recursos y documentos de la red, y son la respuesta al rápido volumen de crecimiento de la red, que supera la capacidad de los recursos humanos de los directorios. Los buscadores son bases de datos creadas por indización automática del texto completo de las páginas Web, y realizada por un programa llamado robot. Este robot lógico o araña, explora de forma automática los servidores, extrayendo las palabras más significativas de cada página y creando un índice de búsqueda. Aún cuando los programas lleguen a ser similares, no existen dos programas de búsqueda exactamente similares en términos de tamaño, velocidad y contenido; no existen dos motores de búsqueda que utilicen coincidentemente el mismo listado de relevancia y tampoco cada motor de búsqueda ofrece las mismas opciones de búsqueda. Existe una gran porción de la red que las “arañas” de los buscadores no pueden o no alcanzan a indexar. Se las nombra como la “red Invisible” o la “red profunda” e incluye, entre otras cosas, sitios protegidos por contraseñas, documentos detrás de “cortinas de fuego”, material archivado, herramientas interactivas, y los contenidos de ciertas bases de datos.

Un agente es una entidad autónoma capaz de almacenar conocimiento sobre sí misma y sobre su entorno, con objetivos y capacidades determinadas. Asimismo, un agente inteligente es un programa que basándose en su propio conocimiento, realiza un conjunto de operaciones que satisfacen las necesidades de un usuario o de otro programa, bien por iniciativa propia o porque alguno de estos se lo requiere. La diversidad de las definiciones sobre lo que representa un agente, se da en la medida en que cada uno de ellos es diseñado de acuerdo a las necesidades específicas del usuario, pero si bien cada uno se establece desde perspectivas diferentes, existe un punto donde todos parecerían ser iguales, este punto se encuentra constituido por las características más representativas de los agentes: (1) Comunicativo. Un agente debe entender las necesidades, objetivos y preferencias del usuario. (2) Autónomo. Un agente debe interactuar con el entorno, tomando decisiones y actuando por cuenta propia. (3) Adaptable. Un agente debe ser capaz de aprender del entorno. (4) Continuo. Un agente debe ejecutarse sin necesidad de ser controlado. (5) Social. Un agente debe comunicarse con otros agentes. (6) Móvil. Un agente debe tener la capacidad de trasladarse a través de la red.

Los agentes proporcionan la siguiente tipologías de herramientas de segunda generación: (1) Clientes z39.50. Permiten la consulta simultánea de un elevado número de servidores, mediante un único protocolo, es decir, una interfaz y un lenguaje de consulta. Es especialmente útil para recuperar la información que se encuentra en la llamada “Internet invisible”. (2) Volcadores. Permiten volcar automáticamente una copia idéntica de sedes, directorios y documentos, manteniendo su estructura y sus elementos. Se puede programar la hora del volcado, reduciendo considerablemente el tiempo y el costo, además de que se puede activar el vuelco de diferentes tipos especiales de documentos (3) Metabuscadores. Permiten realizar la recuperación de la información en varios motores de búsqueda de manera simultanea. A diferencia de los metabuscadores de primera generación, la mayoría de las tareas pueden automatizarse y son muy flexibles en su configuración: traducen expresiones en lenguaje natural, envían los perfiles a varios motores de búsqueda y procesan los resultados, eliminando los duplicados, y ordenando los contenidos de acuerdo a criterios y formatos definibles. (4) Trazadores. Permiten la búsqueda en las páginas enlazadas desde una página Web determinada o desde una lista de resultados de un buscador. Desde esta primera sede, llamada “semilla”, y aprovechando la naturaleza hipertextual de Internet, van comprobándose las páginas que se encuentran enlazadas según una serie de criterios de pertinencia, y así sucesivamente hasta un nivel prefijado. Aunque generan mucho ruido y constituyen una técnica lenta, permiten recuperar información que es imposible de localizar para los buscadores. (5) Indizadores Permiten indizar y resumir automáticamente diferentes páginas Web, y exportar los resultados en diferentes formatos reutilizables por editores Web. (6) Mapeadores. Describen íntegramente una sede, detallando cada archivo y directorio, proporcionando además un mapa de contenidos. Permiten obtener datos numéricos que ayudan a evaluar dichos contenidos y establecen una comparativa entre diferentes sedes web, con base en valores como el tamaño, la densidad hipermedia de la sede, su estructura de niveles, la tipología de enlaces, etc.

Para conocer más acerca del Doctor Choque y sus publicaciones, haz clic en el siguiente vínculo: