Comprender los datos y realizar EDA

Zuhaib Ashraf

Comprender los datos depende de 2 pasos:

Paso 1: ¿Qué pregunta básica se debe hacer?

Paso 2: Análisis de datos exploratorios (EDA)

Explicando estos pasos:

Paso 1: ¿Qué pregunta básica se debe hacer?

¿Qué tamaño tienen los datos?

Puede determinar el tamaño del conjunto de datos comprobando el número de filas y columnas que contiene. Esto se puede hacer usando lenguajes de programación como Python o R, o usando un software de hoja de cálculo como Excel.

¿Cómo se ven los datos?

Puede obtener una comprensión inicial de los datos al inspeccionar una muestra del conjunto de datos. Mire algunas filas o registros para ver la estructura y el formato de los datos. Esto le dará una idea de las diferentes columnas y sus valores.

¿Cuál es el tipo de datos de las columnas?

Examine los tipos de datos de cada columna en el conjunto de datos. Los tipos de datos comunes incluyen numéricos (entero o flotante), categóricos (cadena o factor) y fecha y hora. Esta información es crucial para comprender la naturaleza de los datos y elegir las técnicas analíticas apropiadas.

¿Hay valores perdidos?

Compruebe si faltan valores en el conjunto de datos. Los valores faltantes pueden afectar el análisis y pueden requerir estrategias de imputación o manejo. Identifique las columnas con valores faltantes y determine el porcentaje o el recuento de valores faltantes en cada columna.

¿Cómo se ven los datos matemáticamente?

Para comprender las propiedades matemáticas de los datos, puede calcular medidas estadísticas básicas como la media, la mediana, la desviación estándar, el mínimo y el máximo para columnas numéricas. Para columnas categóricas, puede examinar la distribución de frecuencia de diferentes categorías.

¿Hay valores duplicados?

Compruebe si hay valores duplicados en el conjunto de datos, especialmente en las columnas clave que deberían tener valores únicos. Identifique y maneje los duplicados según sea necesario, ya que pueden afectar los resultados del análisis.

¿Cómo es la correlación entre columnas?

Calcule la correlación entre diferentes columnas, especialmente para datos numéricos. La correlación mide la fuerza y ​​la dirección de la relación lineal entre dos variables. Puede utilizar matrices de correlación o medidas estadísticas como el coeficiente de correlación de Pearson para analizar las relaciones entre columnas.

Al abordar estas preguntas, puede obtener información sobre la estructura, la calidad y las relaciones dentro de su conjunto de datos, lo que le permitirá tomar decisiones informadas para un mayor análisis o procesamiento de datos.

Paso 2: Análisis de datos exploratorios:

El proceso de comprensión adecuada de los datos con la ayuda de la visualización se denomina análisis exploratorio de datos. También se llama EDA.

Hay dos tipos de AED:

  • AED univariante
  • AED multivariable

Análisis univariado:

La palabra Uni-Variate proviene de dos palabras «uni» que significa simple y «Var» significa variable. Entonces, siguiendo esto, la definición de análisis univariado es,

Cuando realiza un análisis en una sola variable, se denomina análisis univariante.

Nota: Variable también llamada columnas y características también.

Analisis multivariable:

Cuando realiza un análisis en múltiples variables, se denomina análisis de múltiples variables.

Antes de realizar EDA, debemos verificar los tipos de datos de nuestras columnas en el conjunto de datos.

Tipos de datos de columnas:

Hay principalmente dos tipos de datos:

  • Numérico (altura, peso, precio, etc.)
  • Categórico (género, universidad, nacionalidad, etc.)

Realización de análisis univariante en datos numéricos:

Los datos numéricos están en forma continua, para realizar EDA univariante en los datos numéricos que usamos,

  • histograma -> visualizar datos numéricos definiendo rango,

importar matplotlib.pyplot como plt

plt.hist(df[‘column_name’]),hist=valor)

histograma
  • distplot -> Distplot también llamada función de densidad de probabilidad. Funciona como histograma, con histograma también representa una línea de unión también,

importar seaborn como sns

sns.distplot(df[‘column_name’])

gráfico de dispersión
  • diagrama de caja -> El gráfico de caja proporciona el valor de la mediana, cuantil 1 (valor del percentil 25), cuantil 2 (valor del percentil 75), valor del rango entre cuantiles (IQR) (IQR = Cuantil 3- Cuantil 1), valor mínimo (Cuantil 1–1.5 * IQR) , valor máximo (Cuantil 3+1.5*IQR). Si algún valor está fuera del rango mínimo-máximo, ese valor se llama valor atípico.

importar seaborn como sns

sns.boxplot(df[‘column_name’])

boxplot

Realización de análisis univariante en datos categóricos:

Podemos realizar EDA univariante en datos categóricos trazando un diagrama de conteo o un gráfico circular.

  • conteo -> importar seaborn como sns sns.countplot(df[‘column_name’])
conteo
  • Gráfico circular -> importar matplotlib.pyplot como plt pie_chart=df[‘positionText’].value_counts().plot(tipo=’pastel’,autopct=’%2f’)
Gráfico circular

Análisis de datos exploratorios de múltiples variables:

  1. Numérico-Numérico → Diagrama de dispersión, diagrama de pares
  • Gráfico de dispersión -> Si queremos realizar un análisis bivariado (análisis entre dos columnas), solo podemos usar los parámetros x e y importar seaborn como sns sns.scatterplot (x = df[‘column_name’],y=df[‘column_name’])
  • Para multivariante, el código se puede personalizar según el número de columnas.
  • importar seaborn como sns sns.scatterplot(x=df[‘column_name’],y=df[‘column_name’],tono=df[‘column_name’],estilo=df[‘column_name’],tamaño=df[‘column_name’])
Gráfico de dispersión
  • Parcela -> damos todos nuestros datos a pairplot y pairplot detecta automáticamente columnas numéricas de los datos.

importar seaborn como sns

sns.pairplot(df)

Diagrama de pares

2. Numérico — Categórico → Diagrama de barras, Diagrama de caja, Diagrama de distribución

  • gráfico de barras -> Para el análisis bivariante, solo podemos usar los parámetros x e y importar seaborn como sns sns.barplot (x = df[‘column_name’],y=df[‘column_name’])
  • para multivariante, importe seaborn como sns sns.barplot(x=df[‘column_name’],y=df[‘column_name’],tono=df[‘colum_name’])
gráfico de barras
  • diagrama de caja -> Para el análisis bivariado, solo podemos usar los parámetros x e y importar seaborn como sns sns.boxplot (x = df[‘column_name’],y=df[‘column_name’])
  • para multivariado, importe seaborn como sns sns.boxplot(x=df[‘column_name’],y=df[‘column_name’],tono=df[‘colum_name’])
diagrama de caja
  • gráfico de dispersión -> Distplot también se puede usar para análisis bivariado y multivariado, para bivariado, solo use el parámetro x e y. importar seaborn como sns sns.distplot(x=df[‘column_name’],y=df[‘column_name’])
  • para multivariado, importe seaborn como sns sns.distplot(x=df[‘column_name’],y=df[‘column_name’],tono=df[‘colum_name’])
Distplot

3. Categórico — Categórico → Heatmap, Clustermap

  • Mapa de calor -> importar pandas como pd

importar seaborn como sns

pd.tabla cruzada(df[‘column_name’],df[‘column_name]’)

sns.heatmap(pd.crosstab(df[‘column_name’],df[‘column_name]’)

Mapa de calor
  • Mapa de clústeres -> importar pandas como pd

importar seaborn como sns

pd.tabla cruzada(df[‘column_name’],df[‘column_name]’)

sns.clustermap(pd.crosstab(df[‘column_name’],df[‘column_name]’)

ClusterMap

Conclusión:

En conclusión, comprender los datos implica dos pasos cruciales: hacer preguntas básicas y realizar un análisis exploratorio de datos (EDA).

Durante el paso inicial, hacer preguntas básicas nos permite obtener una comprensión inicial del conjunto de datos. Determinamos el tamaño de los datos examinando el número de filas y columnas. La inspección de una muestra de los datos proporciona información sobre su estructura y formato. La identificación de los tipos de datos de cada columna, la verificación de valores faltantes, la comprensión de las propiedades matemáticas, la detección de valores duplicados y la exploración de correlaciones entre columnas nos ayudan a comprender las características, la calidad y las relaciones del conjunto de datos.

Una vez que hemos abordado estas preguntas básicas, procedemos al paso EDA. EDA implica visualizar y analizar los datos para descubrir patrones, relaciones y conocimientos. El análisis univariante se enfoca en comprender la distribución y las características de las variables individuales, mientras que el análisis multivariante explora las relaciones e interacciones entre múltiples variables. A través de varias visualizaciones y técnicas estadísticas, podemos descubrir patrones ocultos, identificar valores atípicos o problemas de datos, generar hipótesis y tomar decisiones informadas para un mayor análisis o procesamiento de datos.

Al seguir estos pasos sistemáticos, podemos desarrollar una comprensión integral de los datos, lo que nos permite extraer información significativa y obtener resultados procesables para una toma de decisiones efectiva.


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *