Los comentarios de spam son mensajes no deseados que se envían de forma automática o manual a un sitio web y, por lo general, contienen enlaces a otros sitios web o promociones de productos o servicios. Estos comentarios de spam se realizan para mejorar la clasificación del sitio web o promocionar ciertos productos o servicios de una manera poco ética. A veces, los comentarios de spam pueden degradar la experiencia del usuario y aumentar el riesgo de seguridad del sitio web.
Para identificar comentarios de spam con Machine Learning, necesitamos datos de comentarios que hayan sido etiquetados como spam o no. Afortunadamente, preparé previamente un conjunto de datos que será beneficioso para detectar comentarios de spam. Empecemos.
Paso 1: Importar biblioteca
Las bibliotecas que necesitamos son pandas, entumecido, ContarVectorizador, tren_prueba_dividiry BernoulliNB.
El pandas La biblioteca nos facilita enormemente el procesamiento, la manipulación y el análisis de datos. El entumecido La biblioteca está integrada con pandas para realizar computación científica, acelerando así el procesamiento y análisis de datos. Llamamos ContarVectorizador para procesar datos de texto de manera efectiva y puede mejorar el rendimiento del modelo al hacer predicciones. Como su nombre lo indica, tren_prueba_dividir se utiliza para dividir datos. Mientras tanto, BernoulliNB es el algoritmo que usaremos para predecir los comentarios.
Paso 2: leer datos
Después de que hayamos inicializado varias bibliotecas, el siguiente paso es leer los datos para saber qué haremos antes de seguir procesándolos. El conjunto de datos se puede descargar aquí.
Resulta que el conjunto de datos tiene cinco características, a saber COMENTARIO_ID, AUTOR, FECHA, CONTENIDO, CLASE. Dado que las características requeridas son sólo CONTENIDO y CLASEcrearemos un nuevo conjunto de datos que contenga solo dos columnas.
con el comando muestra(5), podemos ver cinco datos aleatorios. Desde aquí, podemos ver que la función de clase contiene valores de 0 y 1. 0 indica que no es spam y 1 indica spam. Entonces, para que se vea mejor, cambiaremos estas etiquetas a Spam y Not Spam.
Paso 3: dividir datos y crear modelo
Dividamos el conjunto de datos en dos, a saber, datos de entrenamiento y datos de prueba. Luego, entrene el modelo para detectar comentarios de spam.
Dado que esta tarea de detección es un problema de clasificación binaria, utilizaremos el Bernoulli Naïve Bayes algoritmo. Si quieres aprender sobre el uso de la Naïve Bayes multinomial algoritmo, puede consultar el artículo anterior aquí.
Intentemos ver la puntuación de precisión.
La puntuación de precisión es realmente muy buena, que es del 92%.
Paso 4: prueba nuestro modelo
Ahora, probemos el modelo proporcionando comentarios spam y no spam como entrada.
Conclusión
Detectar comentarios spam significa clasificar los comentarios como spam o no spam. Los comentarios de spam en las plataformas de redes sociales son un tipo de comentario publicado para dirigir a los usuarios a otras cuentas de redes sociales, sitios web o cualquier contenido.
Aquí está mi video tutorial en indonesio:
Entonces, espero que les haya gustado el tutorial sobre cómo crear un modelo para detectar comentarios de spam con el algoritmo Bernoulli Naïve Bayes. Si tiene alguna pregunta, por favor déjela en la sección de comentarios. Gracias.
[post_relacionado id=»1582″]