Naive Bayes: clasificación probabilística por medida

Naive Bayes permite entrenar modelos de IA utilizando datos. Los algoritmos correspondientes asignan objetos a distintas clases atendiendo a determinadas características. Para determinar la clase más probable, ayuda un principio probabilístico básico: el teorema de Bayes. Al proporcionar asignaciones correctas en forma de datos de entrenamiento, se puede lograr una alta precisión de predicción. Esto convierte a Naive Bayes en una técnica de aprendizaje automático popular y fácil de usar.

¿Qué es Naive Bayes?

Naive Bayes es un método de clasificación probabilística que utiliza el teorema de Bayes para determinar la pertenencia más probable de los objetos a una clase conocida en función de diversas propiedades. Este principio puede utilizarse para modelos de IA en forma de clasificadores Naive Bayes, que, por ejemplo, diferencian algorítmicamente documentos de texto basándose en las palabras que contienen. Las propiedades o características que indican al algoritmo a qué clase pertenece un objeto se denominan rasgos. Según el tipo de datos de entrada, estas variables pueden ser continuas, discretas, categóricas o binarias. Para profundizar en este tema y obtener una definición más precisa, consulte aquí.

"Ingenuo" es el proceso porque atribuye independencia estadística a las características. También se supone que todas contribuyen por igual a la clasificación final. El teorema de Bayes, como también se conoce el teorema subyacente, fue establecido por el matemático Thomas Bayes en el siglo XVIII. Describe una fórmula para calcular la probabilidad condicional. Es decir, determina la probabilidad de que ocurra un suceso B si el suceso A ya es historia. En términos matemáticos, es así:

teorema de bayes

Aquí P(A|B) es la probabilidad condicional, P(A) es la probabilidad de que ocurra A y P(B) es la de que ocurra B. Este sencillo principio básico permite, por así decirlo, una inversión lógica de las conclusiones, también llamada inducción hacia atrás.

Ejemplo del teorema de Bayes

Alguien ha recibido un resultado positivo en la prueba rápida del coronavirus. Ahora se quiere saber qué probabilidad hay de que la persona padezca realmente la enfermedad. P(A) es la probabilidad de una prueba positiva y P(B) es la probabilidad de una enfermedad real. P(A|B) se desconoce inicialmente, pero P(B|A), es decir, la probabilidad de que las personas con la enfermedad den positivo en una prueba, puede determinarse fácilmente con los datos existentes, al igual que P(A) y P(B). Simplemente sustituyendo en el teorema, se obtiene finalmente la probabilidad condicional de una enfermedad presente en este ejemplo. Para un único rasgo, el principio queda así rápidamente explicado. Para un número mayor de características y clases, la cosa se complica rápidamente, por lo que es preferible dejar que los algoritmos hagan el trabajo.

prueba corona

¿Qué hace Naive Bayes por el aprendizaje automático?

Para que los modelos de IA ofrezcan resultados fiables, a menudo se aplican principios estadísticos básicos a partir de grandes cantidades de datos de entrenamiento. Además de la regresión o la agrupación, esto también se aplica a Naive Bayes. Los algoritmos correspondientes se denominan clasificadores Naive Bayes y suelen ser la primera opción cuando se trata de la clasificación automatizada de objetos y, especialmente, de texto. Son muy versátiles: ya sea para categorías binarias, como en el ejemplo anterior, o para la clasificación de texto. Clasificación de textosdonde la aparición de cada palabra es una única característica. En principio, Naive Bayes es escalable. Los objetos con cualquier número de características pueden dividirse en cualquier número de clases. Para cada combinación de característica y clase, el algoritmo calcula la probabilidad condicional P(A|B) utilizando el teorema de Bayes y multiplica los resultados de todas las características de cada objeto. Finalmente, el algoritmo elige la categoría con el producto resultante más alto.

Dado que las decisiones son "sólo" predicciones probabilísticas, el clasificador requiere Datos de formaciónen particular para poder estimar la probabilidad de inversión P(B|A) con la mayor precisión posible. Los datos incluyen asignaciones correctas de objetos a las clases correspondientes. Lógicamente, cuantas más características y categorías tenga que considerar el algoritmo, más cantidad de ellas necesitará. Además de la exactitud, la precisión y la recuperación también son métricas importantes. Esta última describe la proporción de valores positivos correctos. La puntuación F1, por su parte, revela algo sobre la calidad de estos dos criterios de calidad, pero no proporciona información sobre dónde es necesario optimizar.

Ventajas

Los clasificadores Naive Bayes son especialmente impresionantes por su sencillez. Se pueden entrenar y utilizar rápidamente, pero pueden aplicarse a casos complejos. Al mismo tiempo, ofrecen resultados comparativamente precisos. Esto es especialmente cierto si se da realmente el supuesto básico de la independencia de las características individuales. En este caso, Naive Bayes supera incluso a competidores como la regresión logística, cuyos parámetros también tendrían que determinarse mediante optimización.

Desventajas

La independencia declarada no suele darse para todas las características en la práctica, lo que debilita el enfoque Naive Bayes en algunos casos. Además, necesita una cantidad relativamente grande de datos de entrenamiento, que deben cubrir suficientemente cada clase. Para aplicaciones muy complejas, Naive Bayes suele salir perdiendo frente a las redes neuronales, pero al menos puede servir como modelo de referencia sencillo.

3 Tipos de clasificadores

En función del número o las características de las características y las clases, se utilizan distintas variantes de clasificadores, que difieren principalmente en su enfoque matemático. Son especialmente populares:

Bayas ingenuas multinomiales

Esta variante es especialmente adecuada para datos de entrada enteros y asume una distribución binomial para todas las variables. Describe el número total de resultados positivos de experimentos Bernoulli repetidos. Para números grandes, se aproxima a la distribución gaussiana, para la que puede utilizarse otro tipo de clasificador. La expresión multinomial se utiliza a menudo para la clasificación de documentos y textos, donde cuenta la frecuencia de palabras individuales.

moneda bernoulli
El experimento Bernoulli más famoso es el lanzamiento de la moneda

Bernoulli Bayes ingenuo

...es muy similar al tipo anterior, pero difiere en la representación de los datos de entrada, que aquí se entienden como una distribución binaria. La variante también se utiliza a menudo para clasificar texto, pero en consecuencia sólo distingue entre la presencia o ausencia de palabras. Esta última aparece como una característica independiente, lo que contrasta con el Bayes Multinomial, en el que el número de frecuencia cero puede causar problemas con respecto a las probabilidades nulas.

Bayas ingenuas gaussianas

Aquí tenemos la variante ya mencionada anteriormente, que puede utilizarse adecuadamente tanto para números grandes como para números decimales. Lo principal es que las variables de entrada sigan una distribución normal y, por tanto, puedan describirse con la curva de Gauss o de campana. En la práctica, esto suele ser así para un gran número de casos.

Distribución normal de Gauss

Técnicas de optimización para Naive Bayes

Ningún modelo es perfecto, por lo que Naive Bayes también tiene sus puntos débiles, ya que a menudo no se adapta de forma óptima a los casos de uso previstos, ni siquiera en sus distintas variantes. Para resolver los problemas que surgen y poder utilizar el algoritmo de forma más específica o también más versátil para el aprendizaje automático, se aplican por tanto diversas técnicas de optimización y combinación. He aquí tres importantes:

Alisado

...resuelve el problema ya mencionado de las probabilidades nulas, que suele darse con las variantes categóricas de Naive Bayes. Así, al calcular las proporciones, se puede añadir un pequeño sumando al numerador y al denominador para lograr el suavizado. De este modo, el algoritmo aprende a tratar mejor las clases "no vistas" previamente. Si el sumando es +1, se habla de suavizado de Laplace; si es menor, de suavizado de Lidstone.

Ingeniería de funciones

...no optimiza el algoritmo en sí, sino que mejora significativamente la calidad de las características de entrada, de las que depende en gran medida Naive Bayes. Para ello, las características se convierten, se extraen, se escalan y se hacen "apetecibles" para el clasificador. En última instancia, esto mejora la precisión y minimiza los errores.

Métodos conjuntos

Naive Bayes puede combinarse con otros clasificadores para optimizar el rendimiento global. En el denominado apilamiento, se añaden métodos como la regresión logística. Sin embargo, el entrenamiento y la clasificación se realizan por separado mediante las técnicas respectivas hasta que se seleccionan los mejores resultados y se combinan las clasificaciones realizadas. El entrenamiento de diferentes clasificadores Naive Bayes con varios subconjuntos de los datos de entrenamiento seleccionados aleatoriamente se denomina apilamiento. Embolsado y conduce a un menor sesgo.

Posibilidades de aplicación práctica

Por su versatilidad, los clasificadores Naive Bayes son una opción popular en la bolsa de trucos de la IA. Al fin y al cabo, la clasificación en diferentes clases también es una necesidad importante para diversos procesos, pero sin duda desempeña el papel más importante en la clasificación de una amplia variedad de tipos de texto. He aquí dos casos de uso concretos:

Filtro de spam

Probablemente el caso más conocido de clasificación de textos. Los correos basura pueden identificarse fácilmente por la frecuente aparición de ciertas palabras como "ganar", "oferta" o "gratis", pero también por determinadas grafías o enlaces. Un clasificador Naive Bayes sólo necesita datos de entrenamiento que contengan correos legítimos y spam. A partir de ahí, puede calcular la probabilidad condicional de la presencia de un correo basura a partir de la frecuencia de las características mencionadas. Un procedimiento similar se utiliza también en casi todas las demás formas de clasificación de textos, como con Procesamiento del lenguaje natural (PNL).

spam
El término "spam" procede originalmente de "spiced ham" (jamón especiado) y sólo adquirió su significado de repetición masiva gracias a un sketch de Monty Python

Gestión de documentos

Con una combinación de algunas de las tecnologías de IA más desarrolladas, Konfuzio garantiza una gestión documental holística y totalmente automatizada. Por supuesto, esto no sería posible sin clasificaciones personalizadas, para las que también se puede utilizar Naive Bayes.

Conclusión

Naive Bayes es una técnica de aprendizaje automático popular y fácil de usar que utiliza métodos de clasificación probabilística para asignar objetos a distintas clases en función de sus características. Aunque tiene algunos inconvenientes, como la suposición de que las características son independientes, Naive Bayes proporciona una gran precisión predictiva y es versátil. Existen tres tipos principales de clasificadores: Multinomial, Bernoulli y Gaussiano de Naive Bayes, que pueden utilizarse en función de la aplicación. Las técnicas de optimización, como el suavizado, la ingeniería de características y los métodos de ensemble, pueden mejorar aún más el rendimiento de Naive Bayes. Los casos prácticos van desde el filtrado de spam a la gestión de documentos, y Naive Bayes se utiliza a menudo en combinación con otras tecnologías de IA.

"
"
Avatar de Tim Filzinger

Últimos artículos