martes, 19 de marzo de 2013

Neurona Lineal Adaptativa

Autor:
PhD. Guillermo Choque Aspiazu
http://www.eldiario.net/
Publicado en:
Junio 23 de 2008

Existe un acuerdo casi generalizado en la comunidad de investigadores en inteligencia artificial por considerar las redes neuronales artificiales como sistemas de computación que constan de un gran número de elementos simples de cálculo o proceso, altamente interconectados, y habitualmente jerarquizados en capas o niveles, que procesan información respondiendo de manera dinámica a los estímulos externos. Los orígenes de las redes neuronales suelen relacionarse con el trabajo de McCulloch y Pitts, realizado el año 1943, en el que proponían una teoría general del procesamiento de la información basada en redes de elementos binarios, capaces de realizar cálculos similares a las computadoras digitales, pero con una ejecución paralela, y no serial, en la que los pesos o ponderaciones sinápticas hacían el papel que el programa juega en una computadora convencional.


Bernard Widrow y su estudiante Marcian Hoff, a fines de los años 1950, introdujeron el modelo denominado “neurona lineal adaptativa” y su regla de aprendizaje llamada “error medio cuadrático” o algoritmo LMS. La neurona lineal adaptativa es similar al perceptrón, excepto en su función de transferencia, la cual es una función de tipo lineal en lugar de un limitador fuerte como sucede en el caso del perceptrón. La neurona lineal adaptativa presenta la misma limitación del perceptrón en cuanto al tipo de problemas que puede resolver, ambas redes solamente pueden resolver problemas linealmente separables, sin embargo el algoritmo LMS es más potente que la regla de aprendizaje del perceptrón ya que minimiza el error medio cuadrático.

El término Adaline es una sigla que identifica a la neurona lineal adaptativa, sin embargo su significado cambió ligeramente a finales de los años 1960 cuando decayó el estudio de las redes neuronales, para denominarse “elemento lineal adaptativo”, este cambio se debió a que Adaline es un dispositivo que consta de un único elemento de procesamiento, como tal no es técnicamente una red neuronal. El elemento de procesamiento realiza la suma de los productos de los vectores de entrada y de pesos, y aplica una función de salida para obtener un único valor de salida, el cual debido a su función de transferencia lineal será +1 si la sumatoria es positiva o –1 si la salida de la sumatoria es negativa. En este caso, la salida es la función unidad al igual que la función de activación; el uso de la función identidad como función de salida y como función de activación significa que la salida es igual a la activación, que es la misma entrada neta al elemento. Adaline es “adaptativo” en el sentido de que existe un procedimiento bien definido para modificar los pesos con objeto de hacer posible que el dispositivo proporcione el valor de salida correcto para la entrada dada; el significado de correcto para efectos del valor de salida depende de la función de tratamiento de señales ejecutada por el dispositivo. Adaline es “lineal” porque la salida es una función lineal sencilla de los valores de la entrada.

El año 1986, los investigadores Rumelhart, Hinton y McClelland, consideraban que todo modelo neuronal o modelo de proceso distribuido en paralelo, podía ser caracterizado a través de la especificación de los siguientes ocho aspectos o características básicas: (1) Un conjunto de unidades de procesamiento, las que se encargan de procesar la información y que suelen disponerse en capas o niveles estructurados de manera jerárquica; el procesamiento se lleva a cabo en estas neuronas, sin hacer distinción entre ejecutoras y supervisoras. (2) Un estado de activación, que en cada instante representa el nivel de activación de cada neurona a través de un valor de activación real. (3) Unas salidas de las unidades que en cada instante determinan la señal que cada neurona envía a sus vecinas. La intensidad de estas salidas, y por tanto el grado, que afecta cada neurona a las vecinas con las que esté conectada, vendrá determinada por el nivel de activación de cada neurona en cada instante a través de una función de salida o de transferencia. (4) Un patrón de conexión que establece qué neuronas se conectan con qué otras; este patrón acaba por establecer la topología de la propia red, su eventual jerarquización por capas y la intensidad, además del sentido de las distintas interconexiones. (5) Una regla de propagación, que combina las salidas de cada neurona con las correspondientes ponderaciones establecidas por el patrón de conexión, especificando de esta forma cómo se evaluaran las entradas que reciba cada neurona. (6) La regla o función de activación, es una función que a partir del estado actual de activación de una neurona y de su entrada neta, determinada por el patrón de conexión y por la regla de propagación, evalúa el estado de activación subsiguiente. (7) Una regla de aprendizaje, que consiste en el procedimiento por el cual se procede a la modificación del patrón de conexión en función de la experiencia, conduciendo en última instancia, al establecimiento de nuevos modelos de respuesta del sistema a los estímulos externos. (8) Una representación del ambiente, que viene dada, dependiendo de la aplicación que vaya a resolver el modelo de red neuronal, por la información empírica disponible o por una función estocástica que varía temporalmente sobre el espacio de patrones de entrada.

Tomando en cuenta estas ocho componentes básicas de toda red neuronal, los distintos modelos de red neuronal pueden clasificarse de acuerdo con cuatro criterios básicos: (1) la naturaleza de las señales de entrada y salida, (2) la topología de la red, (3) el mecanismo de aprendizaje que utilizan y (4) el tipo de asociación de las señales de entrada y salida, además de la forma de representar estas señales. Las distintas posibilidades de presentarse estos aspectos junto con las distintas funciones de activación y transferencia permiten la clasificación de los distintos modelos. De acuerdo con la naturaleza de las señales de entrada y de salida se puede clasificar las redes neuronales en: (1) Redes analógicas, que procesan datos de entrada de naturaleza analógica, valores reales continuos, habitualmente acotados y usualmente en el intervalo [-1,1]. Las redes analógicas suelen presentar funciones de activación continuas, habitualmente lineales o sigmoides. Entre estas redes neuronales destacan las redes de Retropropagación, la red continua de Hopfield, la de Contrapropagación, la Memoria Lineal Asociativa y los modelos de Mapas Auto-Organizados de Kohonen. (2) Redes discretas binarias, que procesan datos de naturaleza discreta para acabar emitiendo una respuesta discreta. Entre las redes binarias destacan la Maquina de Boltzman, la Máquina de Cauchy, la red discreta de Hopfield el Cognitrón y el Neogognitrón. (3) Redes híbridas, que procesan entradas analógicas para dar respuestas binarias, entre ellas destacan el Perceptrón, la red Adaline y la Madaline.

La red Adaline ha sido ampliamente utilizada en el procesamiento de señales; para valorar el real aporte de esta red en ese campo, se presentan las herramientas empleadas en los procesos de filtrado. A comienzos del estudio de las comunicaciones electrónicas, se diseñaban filtros analógicos empleando circuitos de resistencias, inductores y condensadores para eliminar el ruido en las señales empleadas en las comunicaciones; este procesamiento se ha transformado en una técnica de múltiples facetas, destacándose el uso de “procesadores digitales de señales”, que pueden llevar a cabo los mismos tipos de aplicaciones de filtrado ejecutando filtros de convolución, los cuales se construyen mediante programación convencional, en cualquier lenguaje de programación conocido.
El proceso de filtrado sigue ocupando un lugar muy importante en la industria, pues siempre será necesario eliminar el ruido en señales portadoras de información. Considere una transmisión de radio en amplitud modulada, las técnicas electrónicas de comunicación, bien sean para señales de audio o de datos constan de una codificación y una modulación de la señal. La información que hay que transmitir, se puede codificar en forma de una señal analógica que reproduce las frecuencias y las amplitudes del sonido original. Dado que los sonidos que se están codificando representan un valor continuo que va desde el silencio, pasando por la voz, hasta la música, la frecuencia instantánea de la señal normalmente varia con el tiempo, oscilando entre 0 y 10.000 Hz aproximadamente. En lugar de intentar transmitir directamente esta señal codificada, se transmite de la forma más adecuada para la transmisión por radio; esto se logra modulando la amplitud de una señal portadora de alta frecuencia con la señal de información analógica. Para la amplitud modulada, la frecuencia portadora estará en el intervalo de los 550 a los 1650 kHz, dado que esta frecuencia es muy superior a la frecuencia máxima de la señal de información, se pierde muy poca información como consecuencia de la modulación; la señal modulada puede ser transmitida después a una estación receptora, en la cual la señal se demodula y se reproduce en forma de sonido.

Para conocer más acerca del Doctor Choque y sus publicaciones, haz clic en el siguiente vínculo:


No hay comentarios:

Publicar un comentario