jueves, 21 de noviembre de 2013

Minería de datos con ontologías

Autor:
PhD. Guillermo Choque Aspiazu
http://www.eldiario.net/
Publicado en:
Noviembre 9 de 2009

La ingeniería del conocimiento surge como consecuencia de la necesidad de establecer principios metodológicos y científicos que permitan desarrollar sistemas de información basados en conocimiento a partir de los fundamentos de la informática en general y de la inteligencia artificial en particular. La adquisición del conocimiento a partir de expertos humanos, si bien es necesaria e insustituible en muchas aplicaciones, ha presentado diversas dificultades que van desde la representación del sentido común hasta las excesivas demoras en la implementación y el mantenimiento de los sistemas. Ante estas dificultades han surgido las técnicas de adquisición automática del conocimiento.


Para asegurar el crecimiento de los sistemas basados en el conocimiento se ha hecho necesario desarrollar técnicas que permitan evitar los errores de diseño del sistema y la adquisición del conocimiento, para lo cual se los debe verificar, es decir que se demuestra su consistencia y completitud, se los debe validar, o sea que se determina la corrección. El aprendizaje automático ha sido una respuesta a las dificultades para la adquisición humana del conocimiento y se basa en el aprendizaje de conceptos generales a partir de casos particulares. Algunas de las técnicas más conocidas son las de inducción de árboles de decisión, las redes neuronales y los algoritmos genéticos. Actualmente la aplicación de estas técnicas a grandes bases de datos ha dado lugar a los conceptos de minería de datos y de descubrimiento de conocimientos en grandes bases de datos.

De manera general se puede decir que la minería de datos consiste en la “explotación” de datos en bruto. Su objetivo, perseguido mediante la manipulación automática o semiautomática de los datos, es la obtención de información clave para conseguir beneficios, información más relevante y útil que los propios datos de partida. La minería de datos se fundamenta en la intersección de diversas áreas de estudio, entre las que cabe destacar: análisis estadístico, bases de datos, inteligencia artificial y visualización gráfica. Una buena definición de lo que es minería de datos puede ser la siguiente: “Es el empleo de algoritmos y procedimientos para sacar a la luz asociaciones, correlaciones, reglas, patrones e incluso excepciones interesantes o potencialmente útiles, desconocidos y escondidos en bases de datos o almacenes de datos. La importancia de la minería de datos crece de manera análoga al crecimiento en el tamaño de las bases de datos. En las bases de datos pequeñas son suficientes las técnicas estadísticas tradicionales y las aplicaciones relativamente sencillas.

A veces se ha apelado al nombre de “descubrimiento de conocimiento en bases de datos” para hacer referencia a la minería de datos; sin embargo, muchos autores prefieren referirse al proceso de minería de datos como al de la aplicación de un algoritmo para extraer patrones de datos y a descubrimiento de conocimiento como al proceso completo: pre-procesamiento, minería, post-procesamiento. En este sentido, el descubrimiento de conocimiento en bases de datos implica un proceso interactivo e iterativo, involucrando la aplicación de métodos de minería de datos, para extraer o identificar lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos, junto con el pre-procesamiento, muestreo y transformaciones de la base de datos. La meta de este proceso es justamente resolver de manera automática grandes cantidades de datos crudos, identificar los patrones más significativos y relevantes, y presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

Las herramientas de la minería de datos desarrolladas en profundidad en los últimos años, son de mucha utilidad en las organizaciones, ya que permiten el análisis de grandes volúmenes de información, con el fin de obtener resúmenes y conocimiento que apoye la toma de decisiones y que pueda construir una experiencia a partir de los millones de transacciones detalladas que registra una corporación en sus sistemas informáticos; científicos del área han desarrollado técnicas de visualización de los modelos de comportamiento obtenidos en estos procesos, que relacionan información relevante con un mayor grado de análisis para ser utilizada con efectividad en la toma de decisiones.

No obstante, los procesos de minería de datos lo que permiten obtener son modelos de comportamiento y no necesariamente, conocimiento semánticamente estructurado de conocimiento, con lo cual son efectivas para gestionar información, que luego, a través de otros procesos puede convertirse en conocimiento. En la década de los años 1990, con el desarrollo de la Web y los deseos de compartir y rehusar el conocimiento, las investigaciones sobre sistemas de representación del conocimiento comenzaron a cobrar importancia en la medida en que el problema de la búsqueda y recuperación de información se agudizó, y el Consorcio Web inició el proyecto de la Web semántica. Entre estos sistemas se destacan las taxonomías de dominio, los mapas de tópicos, los mapas conceptuales, las ontologías, entre otros. Aunque la investigación que hoy día se lleva a cabo sobre estos sistemas es básicamente para su empleo en la búsqueda y recuperación de información en la Web, concretamente en el proyecto de la Web semántica. Estos sistemas tienen grandes posibilidades de uso en los sistemas de información organizacional como herramienta para la gestión del conocimiento, debido a que pueden representar el conocimiento que existe sobre un determinado dominio. De todos los sistemas antes expuestos, destaca la ontología como el sistema de representación propuesto por el Consorcio Web para la gestión semántica en la Web, y a su vez, parece que puede ser empleada para la gestión del conocimiento en las organizaciones.

El objetivo de las ontologías en la inteligencia artificial es representar procesos del tipo no algorítmico con el fin de dotar a los sistemas inteligentes de la suficiente flexibilidad que les permita reproducir, en alguna medida, los procesos cognitivos que se llevan a cabo en la mente humana. Con el desarrollo de la Web y los deseos de compartir y reusar el conocimiento, la investigación sobre las ontologías como posibles sistemas para representar el conocimiento almacenado en las páginas Web, comenzó a cobrar importancia en la medida en que el problema de la búsqueda y recuperación de información se agudizó, y el Consorcio Web comenzó a desarrollar el proyecto de la Web semántica. En el entorno de la hipertextualidad, la ontología ha sido definida como: Una representación explícita y formal de una conceptualización compartida.

En la definición de ontología se destacan los siguientes elementos: (1) La conceptualización corresponde a una parte del mundo o universo que es objeto de tratamiento. Es un modelo que se construye a partir de identificar los conceptos que componen un dominio del conocimiento, y las relaciones relevantes establecidas entre dichos conceptos, por lo que la base de toda ontología es una taxonomía o clasificación de conceptos. (2) Es compartida porque debe ser consensuada y aceptada por un grupo o comunidad científica. Si un grupo o comunidad debe establecer consenso sobre cómo ven el campo de conocimiento sobre el que trabajan, es bastante fácil, que aflore el conocimiento tácito que de manera individual posee cada miembro a un nivel micro y cada grupo a un nivel macro. (3) Explícita porque se define el conocimiento implícito que existe sobre determinada noción y esa definición es a través del lenguaje natural, lo que la dota de capacidades didácticas. (4) Formal, porque es legible por la computadora, es decir, debe ser desarrollada y puesta en marcha a través de lenguajes computacionales, lo que permite también su reutilización en otros procesos como la gestión de información, específicamente, como sistemas para la organización y de recuperación de información en intranets, bibliotecas digitales, sitios Web, etc.

De esta manera, se puede ver la relación entre ontologías y minería de datos de dos modos: (1) Desde las ontologías a la minería de datos, se incorpora el conocimiento al proceso por el uso de ontologías, es decir como los expertos entienden y realizan las tareas de análisis. Las aplicaciones representativas son ayudantes inteligentes para el proceso de descubrimiento, la interpretación y la validación del conocimiento extraído, las ontologías para recursos y la descripción de servicios. (2) Desde la minería de datos a las ontologías, se incluye el conocimiento del dominio en la información de entrada o se utiliza las ontologías para representar los resultados. Por lo tanto el análisis es realizado sobre estas ontologías. Las aplicaciones más representativas se encuentran en la medicina, biología y datos espaciales, como: la representación de genes, taxonomías, aplicaciones en geociencias y aplicaciones médicas.

Para conocer más acerca del Doctor Choque y sus publicaciones, haz clic en el siguiente vínculo: