Pesquisa de site

Como contar o número de linhas em um arquivo CSV em Python?


Python é uma linguagem de programação popular amplamente utilizada para análise de dados e computação científica. Ele fornece uma vasta gama de bibliotecas e ferramentas que tornam a manipulação e análise de dados mais simples e rápida. Uma dessas bibliotecas é Pandas, que é construída sobre NumPy e fornece estruturas de dados e ferramentas de análise de dados fáceis de usar para Python.

Neste tutorial, exploraremos como contar o número de linhas em um arquivo CSV usando Python e a biblioteca Pandas. Contar o número de linhas em um arquivo CSV é uma operação comum necessária em análises de dados e tarefas de aprendizado de máquina. Usando Pandas, podemos ler facilmente o arquivo CSV em um objeto DataFrame e, em seguida, usar o atributo shape ou a função len() para contar o número de linhas no arquivo. Na próxima seção do artigo, percorreremos as etapas para ler um arquivo CSV usando o Pandas e, em seguida, demonstraremos como contar o número de linhas no arquivo usando vários métodos.

Como contar o número de linhas em um arquivo CSV em Python?

Estaremos usando Python 3 e a biblioteca Pandas para contar o número de linhas em um arquivo CSV.

Antes de começarmos, certifique-se de ter Python e Pandas instalados em seu sistema. Se você não tiver o Pandas instalado, poderá instalá-lo usando pip, que é o instalador de pacotes para Python.

Abra seu prompt de comando (no Windows) ou terminal (no Linux/macOS) e digite o seguinte comando:

pip install pandas

O comando acima irá baixar e instalar a biblioteca Pandas em seu sistema.

Depois que a biblioteca Pandas estiver instalada, podemos importá-la para nosso código Python usando a instrução import. Aqui está um exemplo de como importar Pandas:

import pandas as pd

No código acima, estamos importando a biblioteca Pandas e criando um alias para ela como pd para simplificar. Esta é uma convenção muito comum usada na programação Python. Agora que importamos o Pandas, podemos começar a usar suas funções e classes em nosso código para contar o número de arquivos em um arquivo CSV.

Usaremos o método read_csv() do Pandas para ler o arquivo CSV em um objeto DataFrame. O objeto DataFrame é uma estrutura de dados bidimensional semelhante a uma tabela que é comumente usada em tarefas de análise e manipulação de dados.

Para ler um arquivo CSV usando Pandas, podemos usar o seguinte trecho de código:

import pandas as pd

df = pd.read_csv('sample.csv')

No exemplo de código acima, estamos usando o método read_csv() do Pandas para ler um arquivo CSV chamado sample.csv. Isso retornará um objeto DataFrame que contém os dados do arquivo CSV. A variável df é usada para armazenar este objeto DataFrame.

O Pandas fornece duas maneiras simples de contar o número de linhas em um objeto DataFrame: usando o atributo shape e a função len().

Usando o atributo de forma DataFrame

O atributo shape do objeto DataFrame pode ser usado para obter o número de linhas e colunas no DataFrame. Como o número de linhas no DataFrame corresponde ao número de linhas no arquivo CSV, podemos usar o primeiro elemento da tupla do atributo shape para obter o número de linhas no arquivo CSV.

Exemplo

# Import the pandas library as pd
import pandas as pd

# Read the CSV file into a pandas DataFrame object
df = pd.read_csv('filename.csv')


# Get the number of rows in the DataFrame, which is equal to the number of lines in the CSV file
num_lines = df.shape[0]

# Print the number of lines in the CSV file
print("Number of lines in the CSV file: ", num_lines)

No código acima, estamos usando o atributo shape do objeto DataFrame para obter o número de linhas no DataFrame, que corresponde ao número de linhas no arquivo CSV. Em seguida, armazenamos esse valor na variável num_lines e o imprimimos no console. A saída do trecho de código acima será semelhante a esta:

Saída

Number of lines in the CSV file:  10

Agora que sabemos como contar o número de linhas em um arquivo CSV em python usando o atributo de forma do Dataframe, vamos seguir em frente e aprender sobre o método len():

Usando a função len()

Alternativamente, também podemos usar a função len() integrada para contar o número de linhas no DataFrame, que novamente corresponde ao número de linhas no arquivo CSV.

Exemplo

# Import the pandas library as pd
import pandas as pd

# Read the CSV file into a pandas DataFrame object
df = pd.read_csv('filename.csv')

# Count the number of rows in the DataFrame object using the built-in len() function
num_lines = len(df)

# Print the number of lines in the CSV file
print("Number of lines in the CSV file: ", num_lines)

No trecho de código acima, estamos usando a função len() para obter o número de linhas no DataFrame, que novamente corresponde ao número de linhas no arquivo CSV. Estamos então armazenando esse valor na variável num_lines e imprimindo-o no terminal. Novamente, a saída do código acima será semelhante a esta:

Saída

Number of lines in the CSV file:  10

Conclusão

Neste tutorial, aprendemos como contar o número de linhas em um arquivo CSV usando Python e a biblioteca Pandas. Fornecemos exemplos para dois métodos: usando o atributo de forma DataFrame e usando a função len() integrada. Usando Pandas, podemos ler facilmente o arquivo CSV em um objeto DataFrame e então contar o número de linhas no arquivo usando o atributo shape ou a função len(). Também fornecemos um exemplo de código funcional para cada um dos métodos para facilitar o acompanhamento.

Artigos relacionados: