PNL (procesamiento del lenguaje natural)

Arte digital por Samiksha Lokhande

El procesamiento del lenguaje natural (NLP) es el campo relacionado con la capacidad de una computadora para comprender, analizar, manipular y generar potencialmente el lenguaje humano.

Ejemplo: Filtro de spam, Autocompletar, Autocorrección

Kit de herramientas de lenguaje natural (NLTK)

Estos son los temas que trataremos hoy:

  • Eliminar puntuaciones
  • Tokenización
  • Eliminar palabras vacías
  • derivación
  • lematizando
  • Vectorización
  • Ingeniería de características
    Transformaciones
  • Tenemos que eliminar los datos de texto ruidosos antes de enviarlos al modelo de aprendizaje automático.

    Importar biblioteca de cadenas
    Eliminar puntuaciones

    Convierta datos textuales en vectores de token

    Tokenización

    Palabras de uso común que se pueden ignorar y que no agregan información relevante al texto.

    Eliminar palabras vacías
    Importar biblioteca nltk
    Implementación de la eliminación de palabras vacías
  • Proceso de reducción de palabras declinadas (o, a veces, derivadas) a su raíz o raíz de palabra
  • Aunque pueden tener diferentes afijos, las palabras que comparten la misma raíz tienen un significado semántico similar.
  • Simplemente corta el final de una palabra usando heurística sin comprender el contexto en el que se usa una palabra
  • Tipos de votos:
    Voces de portero
    Votos de bola de nieve
    Voces de Lancaster
    Votación basada en Regex
  • Ejemplo de votos de Porter
    Texto limpio vs texto derivado
  • Proceso de agrupar las formas flexionadas de una palabra para que puedan analizarse como un solo término, identificado por el lema de la palabra.
  • Lematizar es usar análisis de vocabulario de palabras para eliminar las terminaciones flexivas y volver a la forma de diccionario de una palabra.
  • WordNetLemmatizer()
  • Mejor que stemmer pero lleva más tiempo correr

    Descargar WordNet Lemmatizer
    Palabra derivada vs palabra lematizada
    Palabra derivada vs palabra lematizada

    VECTORIZACIÓN: Proceso de codificación de texto como números enteros para crear vectores de características

    VECTOR DE CARACTERÍSTICAS: Un vector n-dimensional de características numéricas que representan algún objeto.

    MATRIZ DE TÉRMINOS DEL DOCUMENTO:
    columna: palabras
    fila: número de documentos/mensajes en los datos.
    valor: número de veces que apareció esa palabra

    Tipos de Vectorización:

  • Contar vectorización
  • N-Gramos
  • Frecuencia de término: frecuencia de documento inversa (TF-IDF)
  • CONTAR VECTORIZACIÓN: crea la matriz documento-término y luego simplemente cuenta el número de veces que aparece cada palabra en ese documento dado.
  • Contar vectorizador

    2. N-GRAMOS: matriz de término de documento donde los conteos aún ocupan la celda pero en lugar de que las columnas representen términos individuales, representan todas las combinaciones de adyacentes de longitud n en su texto

    Ejemplos de N-Gramos
    Implementación de N-Gramos

    MATRIZ DISPERSA: Una matriz en la que la mayoría de las entradas son 0. En aras de un almacenamiento eficiente, una matriz dispersa se almacenará almacenando solo las ubicaciones de los elementos distintos de cero

    Matriz dispersa

    3. TF-IDF (Término frecuencia-frecuencia inversa del documento)

    TF-IDF crea una matriz de términos de documento, donde todavía hay una fila por mensaje de texto y las columnas aún representan términos únicos únicos. Pero en lugar de que las celdas representen el recuento, las celdas representan una ponderación destinada a identificar qué tan importante es una palabra para un mensaje de texto individual.

    ¿Cómo se determina la ponderación? Usando esta fórmula

    Fórmula TF-IDF
    Ejemplo de TF-IDF
    Ejemplo de matriz dispersa

    Conceptos de aprendizaje automático: Continuará…


    Comentarios

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *