Pesquisa de site

Como é feita a manipulação dos dados no Seaborn para criar os gráficos?


No Seaborn, a manipulação de dados é feita usando pandas, que é uma biblioteca popular de manipulação de dados em Python. Seaborn é construído sobre pandas e integra-se perfeitamente a ele. O Pandas fornece estruturas e funções de dados poderosas para manipulação de dados, como filtragem, agrupamento, agregação e transformação de dados, que podem ser usadas em conjunto com o Seaborn para criar gráficos.

Ao combinar os recursos de manipulação de dados do pandas com as funções de plotagem do Seaborn, podemos manipular e visualizar facilmente nossos dados de maneira concisa e eficiente. Isso nos permite explorar e comunicar insights de maneira eficaz a partir de nosso conjunto de dados.

Aqui está um guia passo a passo sobre como a manipulação de dados é feita usando a biblioteca Pandas no Seaborn para criar gráficos.

Importe as bibliotecas necessárias

Como estamos trabalhando com as bibliotecas pandas e Seaborn, primeiro temos que importar essas duas bibliotecas com o código abaixo.

import seaborn as sns
import pandas as pd

Carregue ou crie seu conjunto de dados usando pandas

Em seguida, podemos carregar ou criar nosso próprio conjunto de dados usando read_csv e DataFrame da biblioteca pandas. Neste artigo estamos criando o conjunto de dados usando a função DataFrame() da biblioteca pandas.

Exemplo

import seaborn as sns
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
         'Age': [25, 30, 35],
         'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
print(df.head())

Saída

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000

Execute operações de manipulação de dados

Assim que tivermos nosso conjunto de dados em um DataFrame do pandas, agora podemos usar várias técnicas de manipulação de dados para prepará-los para plotagem. Algumas das operações comuns são mencionadas abaixo.

Filtragem

A filtragem é usada para selecionar um subconjunto de linhas ou colunas com base em determinadas condições. Por exemplo, a partir dos dados criados se quisermos filtrar as linhas com idade superior a 30 então o código será definido da seguinte forma.

Exemplo

import seaborn as sns
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
         'Age': [25, 30, 35],
         'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
df.head()

filtered_df = df[df['Age'] > 30]
res = filtered_df.head()
print(res)

Saída

      Name  Age  Salary
2  Charlie   35   70000

Agrupando e agregando

Agrupando os dados com base em uma ou mais variáveis e calculando estatísticas resumidas. Por exemplo, quando queremos agrupar os dados por Nome e calcular o Salário médio, será usada a linha de código abaixo.

Exemplo

import seaborn as sns
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
         'Age': [25, 30, 35],
         'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
grouped_df = df.groupby('Name')['Salary'].mean()
print(grouped_df.head())

Saída

Name
Alice      50000.0
Bob        60000.0
Charlie    70000.0
Name: Salary, dtype: float64

Transformação de dados

Transformação de dados significa aplicar funções ou transformações para modificar os dados e criar uma nova coluna com base nas colunas existentes.

Exemplo

import seaborn as sns
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie'],
         'Age': [25, 30, 35],
         'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
df.head()

grouped_df = df.groupby('Name')['Salary'].mean()
res = grouped_df.head()
print(res)

Saída

Name
Alice      50000.0
Bob        60000.0
Charlie    70000.0
Name: Salary, dtype: float64

Remodelação de dados

Na remodelagem de dados, estamos reestruturando os dados para um formato diferente usando técnicas como pivotamento ou fusão.

Exemplo

import seaborn as sns
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
         'Age': [25, 30, 35],
         'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
pivoted_df = df.pivot(index='Name', columns='Age', values='Salary')
print(pivoted_df.head())

Saída

Age           25       30       35
Name
Alice    50000.0      NaN      NaN
Bob          NaN  60000.0      NaN
Charlie      NaN      NaN  70000.0

Use Seaborn para criar gráficos

Depois que os dados estiverem preparados, podemos usar as funções de plotagem do Seaborn para criar visualizações com base em nossos dados. Por exemplo, quando queremos criar um gráfico de barras do salário médio por faixa etária, então

Exemplo

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

data = {'Name': ['Alice', 'Bob', 'Charlie'],
         'Age': [25, 30, 35],
         'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
sns.barplot(x='Age', y='Salary', data=df)
plt.show()

Saída

Seaborn oferece uma ampla gama de funções de plotagem, incluindo gráficos de dispersão, gráficos de linhas, gráficos de barras, histograma, gráficos de caixas e muito mais. Essas funções aceitam DataFrames do pandas como entrada e fornecem opções para personalizar a aparência e o estilo dos gráficos.

Artigos relacionados: