Como pular linhas ao ler um arquivo csv usando Pandas
Python tem um método integrado read_csv que pode ser usado para definir pular linhas ao ler um arquivo csv usando Pandas. O CSV significa Comma Separated Values e é conhecido como uma extensão de um arquivo que contém o banco de dados. Esta técnica pode ser usada em qualquer aplicação que envolva leitura e processamento de dados de um arquivo CSV. Os vários aplicativos usados, como filtragem de dados, ferramenta Excel, etc.
Sintaxe
A seguinte sintaxe é usada nos exemplos -
read_csv('file_name.csv', skiprows= set the condition according to user choice)
Esta é uma função integrada do módulo pandas que pode ler os dados de arquivos CSV. Aceita dois parâmetros -
filename.csv - O csv é uma representação simples da extensão de um arquivo.
skiprows - Este parâmetro permite ao usuário definir a condição com base em pular/remover as linhas.
Exemplo 1
No exemplo a seguir, iniciaremos o programa importando o módulo denominado pandas e tomando o objeto de referência como pd. Em seguida, inicialize a variável chamada df que armazena o valor por um método integrado read_csv() que aceita dois parâmetros - demo.csv (o nome do arquivo) e skiprows (defina a linha de índice específica). O skiprows define as linhas usando a compreensão de lista. Por fim, usamos apenas a variável df para obter os dados em forma tabular.
#skip multiple rows
import pandas as pd
df = pd.read_csv('demo.csv',skiprows=[1,5,12])
df
Saída
Exemplo 2
No exemplo a seguir, mostraremos como pular uma única linha dos dados. Primeiro, importe o módulo pandas que ajuda a definir a operação de leitura dos dados. Tome o pd como uma referência de objeto que será usada para atribuir read_csv. Ao usar esta função integrada, ele aceita dois parâmetros - ‘demo.csv’ (nome do arquivo) e skiprows (definido como valor 1 que remove a primeira linha da tabela).
#skip only single rows
import pandas as pd
df = pd.read_csv('demo.csv',skiprows=1)
df
Saída
Exemplo 3
No exemplo a seguir, primeiro importaremos o módulo pandas que pode ser usado para manipular sua referência de objeto chamada pd. A seguir, armazenaremos o valor como método integrado read_csv com pd que aceita dois parâmetros - ‘demo.csv’ (nome do arquivo) e skiprows (defina o valor para condição par). No final, use a variável df para obter a saída.
# skip rows based on even condition
import pandas as pd
df = pd.read_csv('demo.csv', skiprows=lambda x:x%2!=0)
# print the months in even order
df
Saída
Exemplo 4
No exemplo a seguir, inicie o programa importando o módulo denominado pandas. Em seguida, use o método integrado read_csv que define dois parâmetros - ‘demo.csv’ (nome do arquivo) e skiprows (defina o valor como lamda x:x>5 que define apenas as cinco primeiras linhas). A seguir, use a variável df para obter os dados de 5 linhas.
# skip rows based on certain rows
import pandas as pd
df = pd.read_csv('demo.csv', skiprows= lambda x:x>5)
df
Saída
Exemplo 5
No exemplo a seguir, o programa inicia com o módulo pandas e define a referência do objeto como pd. Em seguida, inicialize a variável chamada df que armazena o valor usando o método integrado e aceita três parâmetros- 'demo.csv'(o nome do arquivo), skiprows(defina o valor inteiro 2 e 10 na lista para excluir os dados da tabela) e nrows (defina o valor como 10, o que significa que apenas 10 linhas estarão disponíveis).
import pandas as pd
df = pd.read_csv('demo.csv', skiprows=[2,10],nrows=10)
df
Saída
Conclusão
Discutimos o conceito de skiprows aplicando-lhe várias condições. Usamos a condição skiprows para pular linhas únicas, pular linhas múltiplas, pular linhas com base em condições pares, pular linhas com base em certas condições e pular a linha específica do arquivo CSV.