In [1]:

#如何在建模选取对股票池区分度比较大的因子？

#因子分析(factor analysis)-因子溢价

In [2]:

#因子溢价：
#通俗的讲就是一对多空组合的收益率
#计算过程：
#1.从时间序列的角度，将股票按因子值的大小进行排序
#2.将排序后的股票按因子值大小划分为10、5分位
#3.计算每个分位的收益变化
#4.第一分位和第五分位的收益差值即为因子溢价
#因子溢价越大，因子对股票池的区分度越好

In [3]:

# 本代码由可视化策略环境自动生成 2022年11月4日 01:09
# 本代码单元只能在可视化模式下编辑。您也可以拷贝代码，粘贴到新建的代码单元或者策略，然后修改。


# Python 代码入口函数，input_1/2/3 对应三个输入端，data_1/2/3 对应三个输出端
def m3_run_bigquant_run(input_1, input_2, input_3):
    #获取数据
    df_all = m8.data.read_df()
    df_all = df_all[df_all['date']>'2020-01-01']
    df_all = df_all[df_all['yiziban'].notnull()==True]   
    
    #新建dataframe,过滤股票池
    df_all = df_all[(df_all['buy_cond_1']==1)&(df_all['buy_cond_2']==1)&(df_all['buy_cond_2']==1)]

    
    data_1 = DataSource.write_df(df_all)
    return Outputs(data_1=data_1, data_2=None, data_3=None)

# 后处理函数，可选。输入是主函数的输出，可以在这里对数据做处理，或者返回更友好的outputs数据格式。此函数输出不会被缓存。
def m3_post_run_bigquant_run(outputs):
    return outputs

m2 = M.instruments.v2(
    start_date=T.live_run_param('trading_date', '2020-01-01'),
    end_date=T.live_run_param('trading_date', '2022-10-13'),
    market='CN_STOCK_A',
    instrument_list='',
    max_count=0
)

m4 = M.input_features.v1(
    features="""#条件一
buy_cond_1 = where((close_0>mean(close_0, 20))&(close_0>mean(close_0, 10))&(close_0>mean(close_0, 5)),1,0)
#条件二
buy_cond_2 = where((low_0<mean(close_0, 5))&(low_0<mean(close_0, 10))&(low_0<mean(close_0, 20)), 1, 0)
#条件三
buy_cond_3 = where((close_0>open_0), 1, 0)

#目标变量
y = shift(close_0,-2)/shift(open_0,-1)

# 过滤掉一字涨停的情况 (设置label为NaN，在后续处理和训练中会忽略NaN的label)
yiziban = where(shift(high_0, -1) == shift(low_0, -1), NaN, y)

a0 = return_0
a1 = return_5
a2 = return_10
a3 = return_20
a4 = return_50
a5 = return_120

"""
)

m6 = M.general_feature_extractor.v7(
    instruments=m2.data,
    features=m4.data,
    start_date='',
    end_date='',
    before_start_days=100
)

m1 = M.chinaa_stock_filter.v1(
    input_data=m6.data,
    index_constituent_cond=['全部'],
    board_cond=['深证主板'],
    industry_cond=['全部'],
    st_cond=['正常'],
    delist_cond=['非退市'],
    output_left_data=False
)

m8 = M.derived_feature_extractor.v3(
    input_data=m1.data,
    features=m4.data,
    date_col='date',
    instrument_col='instrument',
    drop_na=False,
    remove_extra_columns=True
)

m3 = M.cached.v3(
    input_1=m8.data,
    run=m3_run_bigquant_run,
    post_run=m3_post_run_bigquant_run,
    input_ports='',
    params='{}',
    output_ports=''
)

[2022-11-04 01:06:39.016130] INFO: moduleinvoker: instruments.v2 开始运行..

[2022-11-04 01:06:39.054702] INFO: moduleinvoker: 命中缓存

[2022-11-04 01:06:39.057511] INFO: moduleinvoker: instruments.v2 运行完成[0.041384s].

[2022-11-04 01:06:39.069390] INFO: moduleinvoker: input_features.v1 开始运行..

[2022-11-04 01:06:39.142496] INFO: moduleinvoker: input_features.v1 运行完成[0.07311s].

[2022-11-04 01:06:39.174070] INFO: moduleinvoker: general_feature_extractor.v7 开始运行..

[2022-11-04 01:06:40.703676] INFO: 基础特征抽取: 年份 2019, 特征行数=247698

[2022-11-04 01:06:44.707048] INFO: 基础特征抽取: 年份 2020, 特征行数=945961

[2022-11-04 01:06:49.608047] INFO: 基础特征抽取: 年份 2021, 特征行数=1061527

[2022-11-04 01:06:53.205612] INFO: 基础特征抽取: 年份 2022, 特征行数=891271

[2022-11-04 01:06:53.331139] INFO: 基础特征抽取: 总行数: 3146457

[2022-11-04 01:06:53.341890] INFO: moduleinvoker: general_feature_extractor.v7 运行完成[14.167849s].

[2022-11-04 01:06:53.358965] INFO: moduleinvoker: chinaa_stock_filter.v1 开始运行..

[2022-11-04 01:06:58.525728] INFO: A股股票过滤: 过滤 /y_2019, 88574/0/247698

[2022-11-04 01:07:07.169124] INFO: A股股票过滤: 过滤 /y_2020, 320025/0/945961

[2022-11-04 01:07:14.786374] INFO: A股股票过滤: 过滤 /y_2021, 333350/0/1061527

[2022-11-04 01:07:20.954490] INFO: A股股票过滤: 过滤 /y_2022, 261035/0/891271

[2022-11-04 01:07:20.969459] INFO: A股股票过滤: 过滤完成, 1002984 + 0

[2022-11-04 01:07:21.046667] INFO: moduleinvoker: chinaa_stock_filter.v1 运行完成[27.687695s].

[2022-11-04 01:07:21.066293] INFO: moduleinvoker: derived_feature_extractor.v3 开始运行..

[2022-11-04 01:07:25.102365] INFO: derived_feature_extractor: 提取完成 buy_cond_1 = where((close_0>mean(close_0, 20))&(close_0>mean(close_0, 10))&(close_0>mean(close_0, 5)),1,0), 2.062s

[2022-11-04 01:07:27.207847] INFO: derived_feature_extractor: 提取完成 buy_cond_2 = where((low_0[2022-11-04 01:07:27.214957] INFO: derived_feature_extractor: 提取完成 buy_cond_3 = where((close_0>open_0), 1, 0), 0.005s
[2022-11-04 01:07:27.507839] INFO: derived_feature_extractor: 提取完成 y = shift(close_0,-2)/shift(open_0,-1), 0.291s
[2022-11-04 01:07:27.788140] INFO: derived_feature_extractor: 提取完成 yiziban = where(shift(high_0, -1) == shift(low_0, -1), NaN, y), 0.278s
[2022-11-04 01:07:27.792584] INFO: derived_feature_extractor: 提取完成 a0 = return_0, 0.002s
[2022-11-04 01:07:27.795919] INFO: derived_feature_extractor: 提取完成 a1 = return_5, 0.002s
[2022-11-04 01:07:27.799162] INFO: derived_feature_extractor: 提取完成 a2 = return_10, 0.002s
[2022-11-04 01:07:27.802319] INFO: derived_feature_extractor: 提取完成 a3 = return_20, 0.002s
[2022-11-04 01:07:27.805454] INFO: derived_feature_extractor: 提取完成 a4 = return_50, 0.002s
[2022-11-04 01:07:27.808580] INFO: derived_feature_extractor: 提取完成 a5 = return_120, 0.002s
[2022-11-04 01:07:28.285706] INFO: derived_feature_extractor: /y_2019, 88574
[2022-11-04 01:07:28.862074] INFO: derived_feature_extractor: /y_2020, 320025
[2022-11-04 01:07:29.646443] INFO: derived_feature_extractor: /y_2021, 333350
[2022-11-04 01:07:30.233037] INFO: derived_feature_extractor: /y_2022, 261035
[2022-11-04 01:07:30.537713] INFO: moduleinvoker: derived_feature_extractor.v3 运行完成[9.471433s].
[2022-11-04 01:07:30.565211] INFO: moduleinvoker: cached.v3 开始运行..
[2022-11-04 01:07:32.882336] INFO: moduleinvoker: cached.v3 运行完成[2.31714s].

In [4]:

import matplotlib.pyplot as plt

In [5]:

alpha_list = ['a0','a1','a2','a3','a4','a5']

In [6]:

#-----------------------------------------因子溢价模块--------------------------------------------
def factor_yijia(factor):
    #过滤缺失值
    df_all = m3.data_1.read_df()
    df_all = df_all[['date','instrument','y',factor]]
    df_all = df_all.dropna() 
    
    #时间，分位表,按时间序列分析
    time_fen_return = pd.DataFrame(columns = ['date','yi','er','san','si','wu'])    

    index = 0
    #按天groupby
    for date,part_df in df_all.groupby(['date']):
        #过滤当天数据量少于10的情况
        if len(part_df)>10:
            time_fen_return.loc[index,'date'] = date

            #按因子排序
            part_df = part_df.sort_values([factor],ascending = False).reset_index(drop = True)

            #第一分位的平均收益
            df_yi = part_df[:len(part_df)//5]
            time_fen_return.loc[index,'yi'] = df_yi['y'].mean()

            #第二分位的平均收益
            df_er = part_df[len(part_df)//5:len(part_df)//5*2]
            time_fen_return.loc[index,'er'] = df_er['y'].mean()    

            #第三分位的平均收益
            df_san = part_df[len(part_df)//5*2:len(part_df)//5*3]
            time_fen_return.loc[index,'san'] = df_san['y'].mean()   

            #第四分位的平均收益
            df_si = part_df[len(part_df)//5*3:len(part_df)//5*4]
            time_fen_return.loc[index,'si'] = df_si['y'].mean()       

            #第五分位的平均收益
            df_wu = part_df[len(part_df)//5*4:]
            time_fen_return.loc[index,'wu'] = df_wu['y'].mean() 

            index+=1
    #print('因子{}的第一分位平均收益为{}'.format(factor,time_fen_return['yi'].mean()))
    #print('因子{}的第二分位平均收益为{}'.format(factor,time_fen_return['er'].mean()))
    #print('因子{}的第三分位平均收益为{}'.format(factor,time_fen_return['san'].mean()))
    #print('因子{}的第四分位平均收益为{}'.format(factor,time_fen_return['si'].mean()))
    #print('因子{}的第五分位平均收益为{}'.format(factor,time_fen_return['wu'].mean()))    
    return time_fen_return
#-----------------------------------------因子溢价模块--------------------------------------------

In [7]:

#------------------------------------因子溢价累计收益计算模块-----------------------------
def leiji(df,columns):
    for i in range(len(columns)):
        column = columns[i]
        for i in range(len(df)):
            if i == 0:
                df.loc[i,str(column)+'_leiji'] = df.loc[i,column]
            else:
                df.loc[i,str(column)+'_leiji'] = df.loc[i-1,str(column)+'_leiji']*(((df.loc[i,column]-1)/2)+1)
    return df
#------------------------------------因子溢价累计收益计算模块-----------------------------

In [8]:

#----------------------------------因子溢价-分位点收益画图-----------------------
def factor_yijia_draw(df):
    #图片大小
    plt.figure(figsize=(15, 10))

    #画图数据
    plt.plot(df['yi_leiji'], label='one_quantile')
    plt.plot(df['er_leiji'],  label='two_quantile')
    plt.plot(df['san_leiji'], label='three_quantile')
    plt.plot(df['si_leiji'],  label='four_quantile')
    plt.plot(df['wu_leiji'],  label='five_quantile')

    #坐标轴单位
    plt.legend(loc="best")
    plt.xlabel('days', fontsize=14)
    plt.ylabel('multi_return', fontsize=14)
    
    plt.show()

#----------------------------------因子溢价-分位点收益画图-----------------------

In [9]:

df = factor_yijia('a0')
df

Out[9]:

	date	yi	er	san	si	wu
0	2020-01-02 00:00:00	1.011113	1.030144	1.019439	1.017565	1.011547
1	2020-01-03 00:00:00	1.019047	1.019224	1.034929	1.01979	1.035426
2	2020-01-06 00:00:00	1.005552	0.99286	1.002439	0.991327	0.99283
3	2020-01-07 00:00:00	0.992964	1.007735	1.012154	0.99721	1.004803
4	2020-01-09 00:00:00	1.016706	1.025026	1.03138	1.014947	1.017215
...	...	...	...	...	...	...
643	2022-09-28 00:00:00	0.975193	1.025272	0.898041	0.981002	0.978734
644	2022-09-29 00:00:00	0.97575	0.888277	1.0033	1.011483	0.998352
645	2022-09-30 00:00:00	0.985998	1.005844	0.957408	1.01196	0.99445
646	2022-10-10 00:00:00	1.050612	1.039995	1.031628	1.025689	0.990091
647	2022-10-11 00:00:00	1.056453	1.034522	1.040476	1.0264	1.020437

648 rows × 6 columns

In [10]:

leiji(factor_yijia('a0'),columns = ['yi','er','san','si','wu'])

Out[10]:

	date	yi	er	san	si	wu	yi_leiji	er_leiji	san_leiji	si_leiji	wu_leiji
0	2020-01-02 00:00:00	1.011113	1.030144	1.019439	1.017565	1.011547	1.011113	1.030144	1.019439	1.017565	1.011547
1	2020-01-03 00:00:00	1.019047	1.019224	1.034929	1.01979	1.035426	1.020742	1.040046	1.037242	1.027634	1.029464
2	2020-01-06 00:00:00	1.005552	0.99286	1.002439	0.991327	0.99283	1.023576	1.036334	1.038507	1.023177	1.025773
3	2020-01-07 00:00:00	0.992964	1.007735	1.012154	0.99721	1.004803	1.019975	1.040341	1.044819	1.021750	1.028237
4	2020-01-09 00:00:00	1.016706	1.025026	1.03138	1.014947	1.017215	1.028495	1.053359	1.061212	1.029386	1.037087
...	...	...	...	...	...	...	...	...	...	...	...
643	2022-09-28 00:00:00	0.975193	1.025272	0.898041	0.981002	0.978734	1.383248	2.572206	1.633900	1.864543	2.206029
644	2022-09-29 00:00:00	0.97575	0.888277	1.0033	1.011483	0.998352	1.366476	2.428518	1.636595	1.875248	2.204212
645	2022-09-30 00:00:00	0.985998	1.005844	0.957408	1.01196	0.99445	1.356909	2.435615	1.601743	1.886462	2.198095
646	2022-10-10 00:00:00	1.050612	1.039995	1.031628	1.025689	0.990091	1.391247	2.484321	1.627073	1.910693	2.187205
647	2022-10-11 00:00:00	1.056453	1.034522	1.040476	1.0264	1.020437	1.430517	2.527203	1.660002	1.935914	2.209555

648 rows × 11 columns

In [11]:

factor_yijia_draw(leiji(factor_yijia('a0'),columns = ['yi','er','san','si','wu']))

In [12]:

factor_yijia_draw(leiji(factor_yijia('a1'),columns = ['yi','er','san','si','wu']))

In [13]:

factor_yijia_draw(leiji(factor_yijia('a2'),columns = ['yi','er','san','si','wu']))

In [14]:

factor_yijia_draw(leiji(factor_yijia('a3'),columns = ['yi','er','san','si','wu']))

In [15]:

factor_yijia_draw(leiji(factor_yijia('a4'),columns = ['yi','er','san','si','wu']))

In [16]:

factor_yijia_draw(leiji(factor_yijia('a5'),columns = ['yi','er','san','si','wu']))

In [17]:

#得到结论
#a0,a1,a2,a3的区分度要好于a4,a5

In [18]:

df = D.history_data(instruments=['000001.HIX'], start_date='2020-01-01', end_date='2022-11-02', fields=['close'])
df.dtypes

Out[18]:

instrument            object
close                float32
date          datetime64[ns]
dtype: object

In [19]:

#--------------------------------------------因子溢价修正-------------------------------
def factor_yijia_cor(factor):
    #过滤缺失值
    df_all = m3.data_1.read_df()
    df_all = df_all[['date','instrument','y',factor]]
    df_all = df_all.dropna()
    df_all = df_all.sort_values([factor],ascending = False).reset_index(drop = True)

    fen_return = pd.DataFrame(columns = ['date','yi','er','san','si','wu'])    
    
    #按因子大小划分数据集
    df_yi = df_all[:len(df_all)//5]
    df_er = df_all[len(df_all)//5:len(df_all)//5*2]
    df_san = df_all[len(df_all)//5*2:len(df_all)//5*3]
    df_si = df_all[len(df_all)//5*3:len(df_all)//5*4]
    df_wu = df_all[len(df_all)//5*4:]    
    
    #输入指数表（时间）
    index_df = D.history_data(instruments=['000001.HIX'], start_date='2020-01-01', end_date='2022-10-11', fields=['close'])    
    
    #如果当天选中的分位没有数据，设为1
    def len_df_return(df):
        if len(df)==0:
            return 1
        else:
            return df['y'].mean()
    
    #输入每个分数每天的平均收益
    for i in range(len(index_df)):
        date = index_df.loc[i,'date']
        fen_return.loc[i,'date'] = date

        fen_return.loc[i,'yi'] = len_df_return(df_yi[df_yi['date']==date])
        fen_return.loc[i,'er'] = len_df_return(df_er[df_er['date']==date])
        fen_return.loc[i,'san'] = len_df_return(df_san[df_san['date']==date])
        fen_return.loc[i,'si'] = len_df_return(df_si[df_si['date']==date])
        fen_return.loc[i,'wu'] = len_df_return(df_wu[df_wu['date']==date])

    return fen_return    
#--------------------------------------------因子溢价修正-------------------------------

In [20]:

factor_yijia_draw(leiji(factor_yijia_cor('a0'),columns = ['yi','er','san','si','wu']))

In [21]:

factor_yijia_draw(leiji(factor_yijia_cor('a1'),columns = ['yi','er','san','si','wu']))

In [22]:

factor_yijia_draw(leiji(factor_yijia_cor('a2'),columns = ['yi','er','san','si','wu']))

In [23]:

factor_yijia_draw(leiji(factor_yijia_cor('a3'),columns = ['yi','er','san','si','wu']))

In [24]:

factor_yijia_draw(leiji(factor_yijia_cor('a4'),columns = ['yi','er','san','si','wu']))

In [25]:

factor_yijia_draw(leiji(factor_yijia_cor('a5'),columns = ['yi','er','san','si','wu']))

In [ ]: