Desde antes de la aparición de los ordenadores el hombre ha imaginado máquinas inteligentes capaces de tomar decisiones de forma autónoma. En los inicios de la Inteligencia Artificial los programadores intentaban enseñar a las máquinas a partir de la definición reglas lógicas que la propia máquina podía ampliar durante la ejecución del programa. Sin embargo. la complejidad para programar reglas con gran cantidad de combinaciones de datos de entrada o situaciones extremadamente complejas dificultaba enormemente el avance de esta tecnología.

El Machine Learning o Aprendizaje automático, por el contrario, se trata de una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permita a los ordenadores generalizar comportamientos y detectar patrones a partir de datos recibidos. La principal idea es enseñar a las computadores lo que hace una persona de manera natural y para ello intentan que las computadoras aprendan a tomar decisiones sin la necesidad de haber sido expresamente programadas, es decir, que aprendan de la experiencia.

Arthur Samuel definió que se trataba de Campo de estudio que da a los ordenadores la habilidad de aprender sin la necesidad de ser explícitamente programados.Tom Mitchel Un programa aprende de la experiencia E con respecto a la tarea T y una medida de rendimiento P, si el rendimiento en T medido por P mejora con E.

Tipo de Aprendizaje

Aunque existen muchos tipos de aprendizaje, Michalski definió los dos tipos de aprendizajes  más comunes:

  • Aprendizaje Supervisado.
  • Aprendizaje No Supervisado.

 

Aprendizaje Supervisado

En este tipo de aprendizaje el objetivo es conseguir que la computadora aprenda un sistema de clasificación. Se denomina así porque el científico de datos actúa como profesor para enseñar al algoritmo a qué conclusiones debe llegar.

Para ello, se emplea un conjunto de datos con resultados conocidos (conjunto de entrenamiento) para así establecer un patrón que pueda realizar predicciones, es decir, en base a los ejemplos del conjunto de entrenamiento en el que cada uno de los ejemplos está etiquetado con la respuesta correcta, el científico de datos parametriza un algoritmo que encuentra los patrones que determinan el resultado en función de las entradas. De esta forma, una vez el algoritmo está parametrizado correctamente, para nuevas entradas se pueda asignar una clase o resultado de forma automática.

Finalmente, para validar el modelo se utiliza un conjunto de datos de prueba distintos al conjunto de entrenamiento del cual también se conocen los resultados. De esta manera se puede saber el grado de “acierto” del algoritmo. Este grado de acierto se mide en forma de Precisión , exactitud, y sensibilidad.

Para enseñar a la computadora, los algoritmos que más se utilizan son:

  1. Árboles de decisión
  2. Clasificación de Naïve Bayes.
  3. Regresión por mínimos cuadrados.
  4. Regresión Logística.
  5. Support Vector Machines (SVM).
  6. Métodos “Ensemble” (Conjuntos de clasificadores).

Como por ejemplo, los correos electrónicos que se reciben se clasifican como spam o no.
Sobre todo, grandes compañías como Spotify o Netflix recomiendan a sus usuarios una canción o película.

 

Aprendizaje No Supervisado

Se le llama aprendizaje no supervisado porque, a diferencia del anterior, no hay respuesta correcta ya que no ha habido un  profesor que le guíe. En este tipo de aprendizaje no se establece una clase o etiqueta, es decir, desconocemos inicialmente cómo se agrupa o resuelve el ejemplo.

Por ese motivo los algoritmos tratan de describir de la mejor manera posible el número de clases a las cuales pertenecen los datos de entrada, y como resultado, la salida representa el grado de familiaridad o similitud entre la información que se le está presentando a la entrada y las informaciones que se le han mostrado hasta entonces.

 

 

Al contrario que pasaba en el aprendizaje supervisado, no se dispone de datos para el entrenamiento y, por tanto, tampoco se conoce el número de categorías distintas se clasificará. Esto hará, que dependiendo del algoritmo que se utilice, la clasificación sea distinta.

Los problemas de aprendizaje no supervisado se pueden agrupar en:

  • Agrupamiento: Cuando se desea encontrar las agrupaciones inherentes en los datos, cómo agrupar a los clientes mediante el comportamiento de compra.
  • Asociación: Se quiere descubrir reglas qué describen los datos, cómo las personas que compran un determinado producto también tienen tendencia a comprar otro.

 

Los algoritmos más utilizados son:

  • Algoritmos de clustering.
  • Análisis de componentes principales.
  • Descomposición en valores singulares (singular value decomposition).
  • Análisis de componentes independientes (Independent Component Analysis).

 

Ámbitos de Uso

En función de la técnica utilizada, el Aprendizaje Automático se utiliza para la

  • Previsión de valores: Detección de enfermedades, Conducción automática, Asignación automática de preciso.
  • Detección de Anomalías: Predicción de fuga de clientes, Detección de spam, Mantenimiento predictivo.
  • Clasificación de eventos o elementos: Optimización de rutas, Reconocimiento de imágenes, Determinación de tallas de ropa.
  • Sistema de recomendación: Predicción del tipo de cliente.

 

Desde el punto de vista del ámbito concreto en el que se utilice, el Machine Learning sirve para

  • Mejorar la eficiencia: Optimización de rutas, Fiabilidad de procesos.
  • Prevención del fraude y riesgo: Detección del fraude, Prevención de la morisidad.
  • Facilitar la toma de decisiones: Asignación automática de precios, Determinar stock de productos.
  • Mejorar la relación con el cliente: Sugerir productos (Netflix o spotify).
  • Descubrimiento de nuevos servicios: Segmentación por comportamiento, Detección de clientes de alto valor.
  • Encontrar anomalías o disfunciones: Piezas erróneas, Fallos en servidores.