Como é feita a manipulação dos dados no Seaborn para criar os gráficos?
No Seaborn, a manipulação de dados é feita usando pandas, que é uma biblioteca popular de manipulação de dados em Python. Seaborn é construído sobre pandas e integra-se perfeitamente a ele. O Pandas fornece estruturas e funções de dados poderosas para manipulação de dados, como filtragem, agrupamento, agregação e transformação de dados, que podem ser usadas em conjunto com o Seaborn para criar gráficos.
Ao combinar os recursos de manipulação de dados do pandas com as funções de plotagem do Seaborn, podemos manipular e visualizar facilmente nossos dados de maneira concisa e eficiente. Isso nos permite explorar e comunicar insights de maneira eficaz a partir de nosso conjunto de dados.
Aqui está um guia passo a passo sobre como a manipulação de dados é feita usando a biblioteca Pandas no Seaborn para criar gráficos.
Importe as bibliotecas necessárias
Como estamos trabalhando com as bibliotecas pandas e Seaborn, primeiro temos que importar essas duas bibliotecas com o código abaixo.
import seaborn as sns
import pandas as pd
Carregue ou crie seu conjunto de dados usando pandas
Em seguida, podemos carregar ou criar nosso próprio conjunto de dados usando read_csv e DataFrame da biblioteca pandas. Neste artigo estamos criando o conjunto de dados usando a função DataFrame() da biblioteca pandas.
Exemplo
import seaborn as sns
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
print(df.head())
Saída
Name Age Salary
0 Alice 25 50000
1 Bob 30 60000
2 Charlie 35 70000
Execute operações de manipulação de dados
Assim que tivermos nosso conjunto de dados em um DataFrame do pandas, agora podemos usar várias técnicas de manipulação de dados para prepará-los para plotagem. Algumas das operações comuns são mencionadas abaixo.
Filtragem
A filtragem é usada para selecionar um subconjunto de linhas ou colunas com base em determinadas condições. Por exemplo, a partir dos dados criados se quisermos filtrar as linhas com idade superior a 30 então o código será definido da seguinte forma.
Exemplo
import seaborn as sns
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
df.head()
filtered_df = df[df['Age'] > 30]
res = filtered_df.head()
print(res)
Saída
Name Age Salary
2 Charlie 35 70000
Agrupando e agregando
Agrupando os dados com base em uma ou mais variáveis e calculando estatísticas resumidas. Por exemplo, quando queremos agrupar os dados por Nome e calcular o Salário médio, será usada a linha de código abaixo.
Exemplo
import seaborn as sns
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
grouped_df = df.groupby('Name')['Salary'].mean()
print(grouped_df.head())
Saída
Name
Alice 50000.0
Bob 60000.0
Charlie 70000.0
Name: Salary, dtype: float64
Transformação de dados
Transformação de dados significa aplicar funções ou transformações para modificar os dados e criar uma nova coluna com base nas colunas existentes.
Exemplo
import seaborn as sns
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
df.head()
grouped_df = df.groupby('Name')['Salary'].mean()
res = grouped_df.head()
print(res)
Saída
Name
Alice 50000.0
Bob 60000.0
Charlie 70000.0
Name: Salary, dtype: float64
Remodelação de dados
Na remodelagem de dados, estamos reestruturando os dados para um formato diferente usando técnicas como pivotamento ou fusão.
Exemplo
import seaborn as sns
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
pivoted_df = df.pivot(index='Name', columns='Age', values='Salary')
print(pivoted_df.head())
Saída
Age 25 30 35
Name
Alice 50000.0 NaN NaN
Bob NaN 60000.0 NaN
Charlie NaN NaN 70000.0
Use Seaborn para criar gráficos
Depois que os dados estiverem preparados, podemos usar as funções de plotagem do Seaborn para criar visualizações com base em nossos dados. Por exemplo, quando queremos criar um gráfico de barras do salário médio por faixa etária, então
Exemplo
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)
sns.barplot(x='Age', y='Salary', data=df)
plt.show()
Saída
Seaborn oferece uma ampla gama de funções de plotagem, incluindo gráficos de dispersão, gráficos de linhas, gráficos de barras, histograma, gráficos de caixas e muito mais. Essas funções aceitam DataFrames do pandas como entrada e fornecem opções para personalizar a aparência e o estilo dos gráficos.