Seaborn用法整理（上）

由iquant创建，最终由small_q更新于2024-05-20 02:50 被浏览 68 用户

导语

本文是基于StackAbuse的一篇讲解Seaborn的文章上编写。附示例及实现代码，可直接前往文末一键克隆代码进行实践研究。

简介Seaborn

在本文中，我们将研究Seaborn，它是Python中另一个非常有用的数据可视化库。Seaborn库构建在Matplotlib之上，并提供许多高级数据可视化功能。尽管Seaborn库可以用于绘制各种图表，如矩阵图、网格图、回归图等，但在本文中，我们将了解如何使用Seaborn库绘制分布和分类图。在本系列的第二部分中，我们将了解如何绘制回归图、矩阵图和网格图。

下载Seaborn库

我们可以通过几种方式下载seaborn库。如果您正在为Python库使用pip安装程序，您可以执行以下命令来下载这个库:

pip install seaborn

或者，如果您正在使用Python的Anaconda发行版，您可以使用以下命令来下载seaborn库:

conda install seaborn

在BigQuant平台上，你可以跳过这一步，直接在策略编写中import seaborn，即可使用

数据集

我们选取财报数据17年第一季度的数据进行绘制，首先在策略模板中输入如下代码：

import numpy as np
import pandas as pd
import seaborn as sns
import dai
df = dai.query("""
    SELECT
        *
    FROM 
        cn_stock_financial_profitability
    WHERE shift = 0
    ORDER BY date""",
filters={"date": ['2017-01-01', '2019-06-01']}).df()
df = df.dropna()
df.head()

'df.head()'显示了df的前五行：

分布图

sns.distplot(df['roe_avg_lf'])

这里绘制的是各个股票的净资产收益率（roe_avg_lf），结果如下：

联合分布图

jointplot()用于显示各列的相互分布。您需要向jointplot传递三个参数。第一个参数是要在x轴上显示数据分布的列名。第二个参数是要在y轴上显示数据分布的列名。最后，第三个参数是数据帧的名称。

我们来画一个净资产收益率（roe_avg_lf）和总资产报酬率 (TTM)（roa2_avg_ttm）的联合分布图看看能不能找到两者之间的关系，代码如下：

# 这里kind='reg'表示在画完连接图后，做出两者之间的线性关系
sns.jointplot(x='roe_avg_lf', y='roa2_avg_ttm', data=df,kind='reg')

从图中我们可以发现两者有一定的线性关系。本文为了简洁，只使用了财务报表的数据。其中'kind'一栏代表图形类型，可使用 scatter,reg,resid,kde,hex......此处不再赘述

Pair Plot

paitplot()是一种分布图，它基本上为数据集中所有可能的数字列和布尔列的组合绘制联合图。您只需要将数据集的名称作为参数传递给pairplot()函数，如下所示:

df_0 = dai.query("""
    SELECT
        eps_yoy_lf, total_operating_revenue_yoy_lf, operating_revenue_yoy_lf
    FROM 
        cn_stock_financial_growth
    WHERE shift = 0
    ORDER BY date
    """,
filters={"date": ['2017-01-01', '2017-03-31']}).df()
df_0 = df_0.dropna()
sns.pairplot(df_0)

要将分类列的信息添加到pair plot中，可以将分类列的名称传递给hue参数。

sns.pairplot(dataset, hue='你想用来分类的列')

本文选取的报表分类效果均不理想，读者可以使用自己找到的例子自行尝试、感受。

Rug Plot

ugplot()用于为数据集中的每个点沿x轴绘制小条。要绘制rug图，需要传递列的名称。我们来画个小的rug plot。

sns.rugplot(df['roe_avg_lf'])

从输出中可以看到，与distplot()的情况一样，roe_avg_lf的大多数实例的值都在(-2,2)之中。

Bar Plot

barplot()用于显示分类列中的每个值相对于数字列的平均值。第一个参数是分类列，第二个参数是数值列，第三个参数是数据集。

例如，如果您想知道各个股票营业收入这段时间的平均值，您可以使用如下的条形图。

df_1 = dai.query("""
    SELECT
        instrument, date, operating_revenue_lf
    FROM 
        cn_stock_financial_lf_shift
    WHERE shift = 0
    ORDER BY date
    """,
filters={"date": ['2017-01-01', '2017-06-30']}).df()
df_1 = df_1.dropna()
df_1.replace([np.inf, -np.inf], 0, inplace=True)
sns.barplot(x='instrument', y='operating_revenue_lf', data=df_1)

如图，横坐标对应股票，纵坐标对应营业收入，彩色部分长度代表均值，黑色部分代表不同时间点波动的幅度（事实上每个股票对应的“柱”是有宽度的，文章原文是泰坦尼克号失事人员的信息表，此处统计的是失事男女的平均年龄。原则上x轴上元素不宜过多）除了求平均值之外，Bar Plot还可以用于计算每个类别的其他聚合值。为此，需要将聚合函数传递给估计器。例如，你可以计算每个股票营业收入的标准差如下:

sns.barplot(x='instrument', y='operating_revenue_lf', data=df_1, estimator=np.std)

注意：此代码用到了numpy库

统计图

统计图与条形图类似，但是它显示特定列中类别的计数。例如，如果我们想要计算每日被写入财报数据的股票信息数量，我们可以使用count plot这样做:

sns.countplot(x='date', data=df_1)

箱线图

box plot用于以四分位数的形式显示分类数据的分布。框的中心显示了中值。从下须到盒底的值显示第一个四分位数。从盒子的底部到盒子的中部是第二个四分位数。从盒子的中间到顶部是第三个四分位数，最后从盒子的顶部到顶部胡须是最后一个四分位数。

现在我们画一个方框图，显示年龄和性别的分布。您需要将分类列作为第一个参数(在我们的示例中是年份)，而数字列(在我们的示例中是净资产收益率)作为第二个参数。最后，将数据集作为第三个参数传递，请看下面的脚本:

df_3 = dai.query("""
    SELECT
        *
    FROM 
        cn_stock_financial_profitability
    WHERE shift = 0
    ORDER BY date
    """,
filters={"date": ['2017-06-01', '2018-06-30']}).df()
df_3 = df_3.dropna()
df_3.replace([np.inf, -np.inf], 0, inplace=True)
df_3['year'] = df_3['date'].dt.year
df_3['quarter_index'] = df_3['date'].dt.quarter


df_4 = df_3[['year','roe_avg_lf','quarter_index']]
def winsorize(df, width=3):
    df = df.copy()
    factor_columns = set(df.columns).difference(['date','instrument'])
    for factor in factor_columns:
        mean = df[factor].mean()
        sigma = df[factor].std()
        df[factor] = df[factor].clip(mean-width*sigma,mean+width*sigma)
    return df
df_4 = winsorize(df_4,width=3)
sns.boxplot(x='year', y='roe_avg_lf', data=df_4)

为使图像表达出的信息更加直接有用，方便阅读，我先对数据进行了去极值处理。（未去极值的结果在后面附上的代码中可以看到） boxplot会自动对数据进行标记极值处理。若有数据超出某范围，则会被标记为异常值，在途中以点的形式显示。为被标记的数据则会以箱型的形式显示。“箱子”的五根线分别为数据的0%,25%,50%,75%,100%。通过添加另一层分布，您可以使您的方框绘图更加美观。例如，如果你想查看不同季度的数据，以及他们净资产收益率的信息，你可以将不同季度的数据传递给hue参数，如下图所示:

sns.boxplot(x='year', y='roe_avg_lf', data=df_4,hue='quarter_index')

Violin Plot

小提琴图与box图类似，但是小提琴图允许我们显示与数据点实际对应的所有组件。函数的作用是:绘制小提琴的曲线图。与box plot类似，第一个参数是分类列，第二个参数是数值列，第三个参数是数据集。

让我们画一个小提琴图来展示年份和净资产收益率的分布。

sns.violinplot(x='year', y='roe_avg_lf', data=df_4)

像box plot一样，您还可以使用hue参数向小提琴plot添加另一个类别变量，如下所示:

sns.violinplot(x='year', y='roe_avg_lf', data=df_4,hue='quarter_index')

现在你可以在Violin Ploe上看到很多信息。然而，不利的一面是，理解小提琴的情节需要一些时间和精力。你可以把一个小提琴图分成两半，一半代表幸存的乘客，另一半代表没有幸存的乘客。为此，需要将True作为violinplot()函数的分割参数的值传递。然而，需要注意的是：此时hue必须有且仅有两种情况，否则代码报错。这里给出文章原文的代码：

sns.violinplot(x='sex', y='age', data=dataset, hue='survived', split=True)

（dataset为原文作者使用的DataFrame,sex、age、survived为乘客的信息表）

Violin Plot和Box Plot都非常有用。但是，根据经验，如果您向非技术人员展示数据，那么最好使用Box Plot，因为它们很容易理解。另一方面，如果你把你的研究成果展示给研究团体，那么使用Violin Plot来节省空间和在更短的时间内传达更多的信息，这会使一切变得更方便。

The Strip Plot

条形图绘制一个散点图，其中一个变量是分类变量。我们已经看到了散点图在联合图和成对图中我们有两个数值变量。在这种情况下，条形图的不同之处在于其中一个变量是分类变量，对于分类变量中的每个类别，您将看到与数字列相关的散点图。

函数的作用是:绘制小提琴的曲线图。与box plot类似，第一个参数是分类列，第二个参数是数值列，第三个参数是数据集。请看下面的代码:

sns.stripplot(x='year', y='roe_avg_lf', data=df_4)

你可以看到各个股票每年的净资产收益率分布。数据点看起来像条。理解这种形式的数据分布有点困难，为了更好地理解数据，我们给抖动参数传递True，它会给数据添加一些随机噪声。请看下面的代码：

sns.stripplot(x='year', y='roe_avg_lf', data=df_4,jitter=True)

就像小提琴图和盒子图一样，您可以使用色相参数为条形图添加额外的分类列，如下图所示:

sns.stripplot(x='year', y='roe_avg_lf', data=df_4,jitter=True,hue='quarter_index')

同理，“split=True”同样适用，同时也要求hue的列值只有两种情况

The Swarm Plot

Swarm Plot是Strip Plot和 Violin Plots的结合。在Swarm Plot中，这些点以不重叠的方式调整。让我们画一个Swarm Plot来表示年份和净资产收益率的关系。函数的作用是:绘制小提琴的曲线图。与box plot类似，第一个参数是分类列，第二个参数是数值列，第三个参数是数据集。请看下面的代码:

sns.swarmplot(x='year', y='roe_avg_lf', data=df_4)

可以清楚地看到，上面的图中包含了散在的数据点，比如条形图，数据点没有重叠。相反，他们和Violin Plot很相似。

让我们使用hue参数向群图中添加另一个分类列。

sns.swarmplot(x='year', y='roe_avg_lf', data=df_4,hue='quarter_index')