El procesamiento del lenguaje natural (NLP) es el campo relacionado con la capacidad de una computadora para comprender, analizar, manipular y generar potencialmente el lenguaje humano.
Ejemplo: Filtro de spam, Autocompletar, Autocorrección
Kit de herramientas de lenguaje natural (NLTK)
Estos son los temas que trataremos hoy:
Transformaciones
Tenemos que eliminar los datos de texto ruidosos antes de enviarlos al modelo de aprendizaje automático.
Convierta datos textuales en vectores de token
Palabras de uso común que se pueden ignorar y que no agregan información relevante al texto.
Voces de portero
Votos de bola de nieve
Voces de Lancaster
Votación basada en Regex
Mejor que stemmer pero lleva más tiempo correr
VECTORIZACIÓN: Proceso de codificación de texto como números enteros para crear vectores de características
VECTOR DE CARACTERÍSTICAS: Un vector n-dimensional de características numéricas que representan algún objeto.
MATRIZ DE TÉRMINOS DEL DOCUMENTO:
columna: palabras
fila: número de documentos/mensajes en los datos.
valor: número de veces que apareció esa palabra
Tipos de Vectorización:
2. N-GRAMOS: matriz de término de documento donde los conteos aún ocupan la celda pero en lugar de que las columnas representen términos individuales, representan todas las combinaciones de adyacentes de longitud n en su texto
MATRIZ DISPERSA: Una matriz en la que la mayoría de las entradas son 0. En aras de un almacenamiento eficiente, una matriz dispersa se almacenará almacenando solo las ubicaciones de los elementos distintos de cero
3. TF-IDF (Término frecuencia-frecuencia inversa del documento)
TF-IDF crea una matriz de términos de documento, donde todavía hay una fila por mensaje de texto y las columnas aún representan términos únicos únicos. Pero en lugar de que las celdas representen el recuento, las celdas representan una ponderación destinada a identificar qué tan importante es una palabra para un mensaje de texto individual.
¿Cómo se determina la ponderación? Usando esta fórmula
Conceptos de aprendizaje automático: Continuará…