Como lidar com valores ausentes de variáveis categóricas em Python?
Qualidades ausentes são um evento típico em conjuntos de dados mundiais reais, e cuidar delas adequadamente é fundamental para o exame e demonstração de informações exatas. Ao gerenciar todos os fatores externos em Python, existem algumas maneiras de lidar com as qualidades ausentes. Neste artigo, investigaremos duas técnicas viáveis para lidar com as vantagens ausentes de fatores não mitigados, fornecendo cálculos passo a passo para cada metodologia. Além disso, apresentaremos guias de código Python genuínos e executáveis para mostrar a execução dessas estratégias.
Sintaxe
vamos nos familiarizar com a sintaxe do método que usaremos -
# Syntax for filling missing values using method_name
dataframe['column_name'].fillna(method_name, inplace=True)
Algoritmo
Etapa 1 - Importe as bibliotecas necessárias
Etapa 2 - Carregar os dados
Etapa 3 - Identificar valores ausentes
-
Etapa 4 - Tratamento de valores ausentes
Etapa 5 - Verifique os valores ausentes
Etapa 6 - Realizar análises adicionais
Conjunto de dados obtido
Name,Age,Gender,Country
John,25,Male,USA
Alice,30,Female,Canada
Bob,35,Male,
Jane,27,
Mike,22,Male,Germany
Abordagem 1: Imputação de Modo
Identifique as colunas categóricas que contêm valores ausentes em seu conjunto de dados.
Calcule a moda (o valor mais frequente) da(s) respectiva(s) coluna(s) usando a função mode().
Preencha os valores ausentes com o modo computado usando o método fillna() com o parâmetro method_name definido como 'mode'.
Exemplo
import pandas as pd
# Load the dataset
data = pd.read_csv('your_dataset.csv')
# Identify the column(s) with missing values
column_with_missing_values = 'Country'
# Compute the mode
mode_value = data[column_with_missing_values].mode()[0]
# Fill the missing values with mode
data[column_with_missing_values].fillna(mode_value, inplace=True)
# Verify the changes
print(data[column_with_missing_values].isnull().sum())
Saída
0
Explicação
A imputação de modo é um método comum para lidar com valores ausentes em variáveis categóricas. Envolve o preenchimento dos valores faltantes com a moda, que representa a categoria mais frequente na coluna. Aqui está um esclarecimento detalhado sobre como isso funciona -
Reconheça a(s) coluna(s) direta(s) contendo qualidades ausentes em seu conjunto de dados - Primeiro, você realmente deseja distinguir a(s) coluna(s) onde as qualidades ausentes estão disponíveis. Estas seções serão o ponto focal do processo de atribuição de modo.
Processe o método da(s) coluna(s) individual(is) utilizando o recurso mode() - Sempre que você reconhecer a(s) coluna(s) com qualidades ausentes, você pode calcular o método de cada seção utilizando o recurso mode(). O modo aborda a aula que acontece com mais frequência na seção.
Preencha os valores ausentes com o modo computado usando o método fillna() - Depois de determinar o modo, você pode prosseguir para preencher os valores ausentes na(s) coluna(s) categórica(s) com o modo computado. Isso pode ser conseguido usando o método fillna() em Python, especificando o parâmetro method_name como 'mode'. Ao definir inplace=True, as alterações serão aplicadas diretamente ao conjunto de dados.
A imputação de modo é uma abordagem direta e intuitiva para lidar com valores ausentes em variáveis categóricas. Ao preencher as qualidades em falta com a classificação mais contínua, garante que a divulgação geral das classificações na secção permanece moderadamente inalterada. No entanto, é importante notar que esta abordagem pode apresentar uma tendência se as qualidades que faltam não desaparecerem à toa. Além disso, em situações onde existem várias seções com qualidades ausentes, cada segmento deve ser tratado de forma independente.
Abordagem 2: Amostragem Aleatória
Identifique as colunas categóricas com valores ausentes.
Gere índices aleatórios correspondentes aos valores ausentes usando a biblioteca numpy.
Crie uma lista de categorias exclusivas nas colunas usando a função unique().
Substitua os valores ausentes por categorias amostradas aleatoriamente da lista usando o método fillna().
Exemplo
import pandas as pd
import numpy as np
# Load the dataset
data = pd.read_csv('your_dataset.csv')
# Identify the column with missing values
column_with_missing_values = 'Gender'
# Generate random indices for missing values
missing_indices = data[data[column_with_missing_values].isnull()].index
# Get unique categories in the column
unique_categories = data[column_with_missing_values].unique()
# Replace missing values with random sampling
data.loc[missing_indices, column_with_missing_values] = np.random.choice(unique_categories, len(missing_indices))
# Verify the changes
print(data[column_with_missing_values].isnull().sum())
Saída
0
Explicação
A amostragem aleatória é uma abordagem alternativa para lidar com valores ausentes em variáveis categóricas. Em vez de imputar valores omissos à moda, esta abordagem envolve a substituição dos valores omissos por categorias amostradas aleatoriamente das categorias exclusivas existentes na coluna. Aqui está um esclarecimento definitivo sobre como isso funciona -
Distinguir as colunas absolutas com qualidades ausentes - Comece reconhecendo as colunas em seu conjunto de dados que contêm qualidades ausentes. Esses são os segmentos que serão o ponto focal do processo de fiscalização arbitrária.
Produza registros arbitrários para qualidades ausentes - Em seguida, crie listas irregulares relacionadas às qualidades ausentes na(s) coluna(s) absoluta(s). Isso pode ser feito utilizando bibliotecas, por exemplo, numpy.
Crie uma lista de categorias exclusivas na coluna - Extraia as categorias exclusivas presentes na(s) coluna(s) categórica(s) com valores ausentes. Esta lista será usada para amostragem aleatória.
Substituir valores ausentes por amostragem aleatória - Com os índices aleatórios e a lista de categorias exclusivas, substitua os valores ausentes na(s) coluna(s) categórica(s) por categorias de amostragem aleatória da lista. Isso pode ser feito usando o método fillna(), atribuindo as categorias amostradas aleatoriamente aos valores ausentes nos índices especificados.
A amostragem aleatória fornece uma abordagem flexível para lidar com valores ausentes em variáveis categóricas. Ao atribuir categorias aleatoriamente, permite a variabilidade nos valores imputados e evita a introdução de preconceitos que podem surgir da imputação com a moda. No entanto, é importante considerar que a amostragem aleatória pode alterar a distribuição das categorias na coluna, potencialmente afetando análises subsequentes ou tarefas de modelagem. Além disso, como acontece com a imputação de modo, cada coluna com valores faltantes deve ser processada de forma independente.
Tanto a imputação modal quanto a amostragem aleatória oferecem abordagens viáveis para lidar com valores faltantes em variáveis categóricas. A decisão entre os dois depende dos atributos específicos do conjunto de dados e dos objetivos da investigação. Avaliar o possível efeito de cada metodologia na respeitabilidade e na qualidade inabalável da informação antes de fazer uma escolha é fundamental.
Conclusão
Cuidar dos valores faltantes é uma etapa fundamental no pré-processamento de informações e, ao trabalhar com fatores absolutos em Python, duas metodologias poderosas podem ser utilizadas - atribuição de modo e exame arbitrário. O método de imputação modal preenche os valores faltantes com a categoria mais frequente, enquanto a abordagem de amostragem aleatória substitui os valores faltantes por categorias selecionadas aleatoriamente a partir das categorias exclusivas existentes. Ao utilizar esses métodos, os analistas e cientistas de dados podem garantir a integridade e a precisão de seus dados categóricos. Lembre-se de adaptar essas técnicas para se adequarem ao seu conjunto de dados específico e sempre avaliar o impacto da abordagem escolhida na sua análise.