Puntos a notar: 1. Esta canalización no es universal. 2. Las canalizaciones de aprendizaje profundo son ligeramente diferentes. 3. La tubería no es lineal.
Cuando los datos están disponibles:
- Los datos están en el mesa; podría estar en formato CSV.
- Los datos están en el base de datos de la organización/empresa. Los ingenieros de datos proporcionarán los datos.
- A menor cantidad de datos —datos aumento se hará El trabajo de aumento de datos incluye sinónimos, inversión de bigramas, retrotraducción y adición de ruido adicional.
Cuando los datos están en otro lugar:
Se pueden encontrar datos:
- Conjunto de datos público: por ejemplo, Kaggle
- Web scraping: se puede utilizar la biblioteca Beautifulsoup.
- API: Tienes que encontrar una API de base de datos textual. https://rapidapi.com/hub proporciona muchas API de descanso públicas. Los datos obtenidos mediante estas API estarán en formato JSON.
- Imagen
- Audio: se debe utilizar una biblioteca de voz a texto.
Cuando no hay datos:
Esta es una tarea difícil. Se puede realizar una encuesta.
Limpieza:
- Etiqueta HTML Limpieza: Esto se puede quitar usando expresiones regulares.
- emojis no puede ser entendido por las máquinas. Entonces, Normalización Unicode está hecho.
- Corrección ortográfica: la TextBlob Se puede utilizar la biblioteca.
Preprocesamiento básico:
- Preprocesamiento básico — Tokenización: Tokenización de oraciones y tokenización de palabras.
- Preprocesamiento opcional: detener la palabra (palabras que se usan para la formación de oraciones pero que no tienen ninguna contribución al significado de la oración como y o etc.) eliminación, derivación(Encontrar la forma raíz – lematización ), eliminando puntuación y dígitos (según las aplicaciones), minúsculas y detección de idioma
Preprocesamiento avanzado:
- etiquetado de punto de venta
- análisis: comprender la estructura sintáctica de la oración.
- Resolución de correferencia
Cuando usemos métodos de ML para realizar nuestro paso de modelado más adelante, aún necesitaremos una forma de introducir este texto preprocesado en un algoritmo de ML. La ingeniería de características se refiere al conjunto de métodos que realizarán esta tarea. También se conoce como extracción de características. El objetivo de la ingeniería de características es capturar las características del texto en un vector numérico (vectorización de texto) que los algoritmos de ML puedan entender.
También te puede interesarEstoy de vuelta, Deep Learning y PNLHay dos partes:
- Modelado
- Evaluación
Modelado:
- modelo heurístico
- modelo de aprendizaje automático
- Modelo DL: hoy en día se utiliza el aprendizaje por transferencia.
- API en la nube (AWS, Google Cloud)
¿Qué enfoque se debe elegir?
Depende de dos factores: a. La cantidad de datos b. Naturaleza del problema
Si tiene menos cantidad de datos: heurística
Gran cantidad de datos: ML, DL o ML+Heurística
Si tiene dinero y tiene una solución en la nube: API en la nube
También te puede interesarMachine Learning en Inteligencia ArtificialEvaluación:
- Evaluación intrínseca: exactitud, precisión, recuperación, matriz de confusión, etc.
- Evaluación extrínseca: evaluar en un entorno empresarial.
Desplegar:
- implementar un microservicio como la comprobación de spam en un servicio en la nube como AWS.
- Creación de una aplicación de chatbot
Supervisión
Comprobación continua del cuadro de mando, que incluye las matrices de evaluación con gráficos.
Actualizar
Desarrollo periódico del modelo en base a los nuevos datos y las métricas de evaluación.