Como contar ocorrências de valor específico na coluna Pandas?
Contar o número de ocorrências de um valor específico em uma coluna é uma tarefa comum na análise de dados. Felizmente, a biblioteca pandas em Python oferece uma maneira rápida e fácil de fazer isso com o método value_counts(). Este método retorna uma série Pandas que contém a contagem de cada valor exclusivo na coluna. Você pode então acessar a contagem de um valor específico usando colchetes e o valor que deseja contar.
Neste artigo, percorreremos as etapas de contagem das ocorrências de um valor específico em uma coluna do pandas. Abordaremos como criar um DataFrame do pandas, ler um arquivo CSV em um DataFrame e usar o método value_counts() para contar o número de ocorrências de um valor específico em uma coluna. Também discutiremos alguns casos de uso comuns para contagem de ocorrências, como encontrar o valor mais comum em uma coluna ou identificar problemas de qualidade de dados.
Ao final deste artigo, você terá um conhecimento sólido de como contar ocorrências de um valor específico em uma coluna do pandas e poderá aplicar esse conhecimento aos seus próprios projetos de análise de dados.
Usando o método value_counts()
A maneira mais simples de contar as ocorrências de um valor específico em uma coluna do pandas é usar o método value_counts(). Este método retorna uma série Pandas que contém a contagem de cada valor exclusivo na coluna. Você pode então acessar a contagem de um valor específico usando colchetes e o valor que deseja contar.
Considere o código mostrado abaixo.
Exemplo
import pandas as pd
# create a sample DataFrame
data = {'fruit': ['apple', 'orange', 'banana', 'apple', 'orange']}
df = pd.DataFrame(data)
# use value_counts() to count occurrences of 'apple'
count = df['fruit'].value_counts()['apple']
print(f"The number of apples is: {count}")
Explicação
Neste exemplo, primeiro criamos um DataFrame de amostra que contém uma coluna chamada 'fruta'. Em seguida, usamos o método value_counts() para contar o número de ocorrências de cada valor único na coluna ‘fruta’. Por fim, acessamos a contagem do valor ‘maçã’ usando colchetes e o valor ‘maçã’.
Saída
The number of apples is: 2
Usando o método group_by()
Outra forma de contar as ocorrências de um valor específico em uma coluna do pandas é usar o método groupby(). Este método agrupa o DataFrame pelos valores em uma coluna especificada e permite realizar operações em cada grupo.
Considere o código mostrado abaixo.
Exemplo
import pandas as pd
# create a sample DataFrame
data = {'fruit': ['apple', 'orange', 'banana', 'apple', 'orange']}
df = pd.DataFrame(data)
# use groupby() and size() to count occurrences of 'apple'
count = df.groupby('fruit').size()['apple']
print(f"The number of apples is: {count}")
Explicação
Neste exemplo, primeiro criamos um DataFrame de amostra que contém uma coluna chamada 'fruta'. Em seguida, usamos o método groupby() para agrupar o DataFrame pelos valores na coluna ‘fruta’. Em seguida, usamos o método size() para contar o número de ocorrências de cada valor único na coluna ‘fruta’. Por fim, acessamos a contagem do valor ‘maçã’ usando colchetes e o valor ‘maçã’.
Saída
The number of apples is: 2
Usando uma máscara booleana
Uma terceira maneira de contar as ocorrências de um valor específico em uma coluna do pandas é usar uma máscara booleana. Uma máscara booleana é uma matriz de valores Verdadeiro/Falso que você pode usar para filtrar um DataFrame.
Considere o código mostrado abaixo.
Exemplo
import pandas as pd
# create a sample DataFrame
data = {'fruit': ['apple', 'orange', 'banana', 'apple', 'orange']}
df = pd.DataFrame(data)
# use a boolean mask to count occurrences of 'apple'
mask = df['fruit'] == 'apple'
count = len(df[mask])
print(f"The number of apples is: {count}")
Explicação
Neste exemplo, primeiro criamos um DataFrame de amostra que contém uma coluna chamada 'fruta'. Em seguida, criamos uma máscara booleana que é True para linhas onde o valor na coluna 'fruta' é 'maçã'. Em seguida, aplicamos a máscara booleana ao DataFrame e usamos a função len() para contar o número de linhas que correspondem à máscara. Finalmente, imprimimos a contagem de linhas que correspondem à máscara.
Saída
The number of apples is: 2
Conclusão
Concluindo, contar ocorrências de um valor específico em uma coluna do pandas é uma tarefa comum na análise de dados, e o pandas fornece vários métodos para realizar essa tarefa.
Neste artigo, cobrimos três abordagens diferentes para contar ocorrências: usando o método value_counts(), usando o método groupby() e usando uma máscara booleana.
Independentemente da abordagem escolhida, contar ocorrências de um valor específico em uma coluna do pandas é uma habilidade essencial para analistas e cientistas de dados.