Eliminación de comentarios de spam con el algoritmo Naïve Bayes de Bernoulli

Los comentarios de spam son mensajes no deseados que se envían de forma automática o manual a un sitio web y, por lo general, contienen enlaces a otros sitios web o promociones de productos o servicios. Estos comentarios de spam se realizan para mejorar la clasificación del sitio web o promocionar ciertos productos o servicios de una manera poco ética. A veces, los comentarios de spam pueden degradar la experiencia del usuario y aumentar el riesgo de seguridad del sitio web.

Para identificar comentarios de spam con Machine Learning, necesitamos datos de comentarios que hayan sido etiquetados como spam o no. Afortunadamente, preparé previamente un conjunto de datos que será beneficioso para detectar comentarios de spam. Empecemos.

Paso 1: Importar biblioteca

Las bibliotecas que necesitamos son pandas, entumecido, ContarVectorizador, tren_prueba_dividiry BernoulliNB.

importando biblioteca

El pandas La biblioteca nos facilita enormemente el procesamiento, la manipulación y el análisis de datos. El entumecido La biblioteca está integrada con pandas para realizar computación científica, acelerando así el procesamiento y análisis de datos. Llamamos ContarVectorizador para procesar datos de texto de manera efectiva y puede mejorar el rendimiento del modelo al hacer predicciones. Como su nombre lo indica, tren_prueba_dividir se utiliza para dividir datos. Mientras tanto, BernoulliNB es el algoritmo que usaremos para predecir los comentarios.

Paso 2: leer datos

Después de que hayamos inicializado varias bibliotecas, el siguiente paso es leer los datos para saber qué haremos antes de seguir procesándolos. El conjunto de datos se puede descargar aquí.

leyendo conjunto de datos

Resulta que el conjunto de datos tiene cinco características, a saber COMENTARIO_ID, AUTOR, FECHA, CONTENIDO, CLASE. Dado que las características requeridas son sólo CONTENIDO y CLASEcrearemos un nuevo conjunto de datos que contenga solo dos columnas.

creando un nuevo conjunto de datos

con el comando muestra(5), podemos ver cinco datos aleatorios. Desde aquí, podemos ver que la función de clase contiene valores de 0 y 1. 0 indica que no es spam y 1 indica spam. Entonces, para que se vea mejor, cambiaremos estas etiquetas a Spam y Not Spam.

asignación de etiquetas de clase

Paso 3: dividir datos y crear modelo

Dividamos el conjunto de datos en dos, a saber, datos de entrenamiento y datos de prueba. Luego, entrene el modelo para detectar comentarios de spam.

división de conjuntos de datos

Dado que esta tarea de detección es un problema de clasificación binaria, utilizaremos el Bernoulli Naïve Bayes algoritmo. Si quieres aprender sobre el uso de la Naïve Bayes multinomial algoritmo, puede consultar el artículo anterior aquí.

modelo apropiado

Intentemos ver la puntuación de precisión.

precisión del modelo

La puntuación de precisión es realmente muy buena, que es del 92%.

Paso 4: prueba nuestro modelo

Ahora, probemos el modelo proporcionando comentarios spam y no spam como entrada.

modelo de prueba

Conclusión

Detectar comentarios spam significa clasificar los comentarios como spam o no spam. Los comentarios de spam en las plataformas de redes sociales son un tipo de comentario publicado para dirigir a los usuarios a otras cuentas de redes sociales, sitios web o cualquier contenido.

Aquí está mi video tutorial en indonesio:

Entonces, espero que les haya gustado el tutorial sobre cómo crear un modelo para detectar comentarios de spam con el algoritmo Bernoulli Naïve Bayes. Si tiene alguna pregunta, por favor déjela en la sección de comentarios. Gracias.

[post_relacionado id=»1582″]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio