【研报分享】国信证券:基于 ARFIMA 的股市择时模型

择时
标签: #<Tag:0x00007fc0592c5da0>

(bnamor) #1

基于 ARFIMA 的股市择时模型

 分形差分噪声
布朗运动是整数维的随机过程,分形布朗运动则是布朗运动向分形维的推广。布朗运动的离散形式是随机游走,但是分形布朗的离散形式是分形差分噪声(Fractional Differencing Noise, FDN)。分形差分化试图将一个连续的分形布朗运动过程转变成为一个离散过程。整数差分仅仅是一个总的逼近方法,而且当这种简单的方法被强加在一个实际过程上时,常常导致过度差分问题,使原始数据中许多有用的数据特征被差分掉了,使得在参数估计和建模时产生较大偏差。

 长期记忆过程
越来越多的实证研究发现,股票收益率序列的各个观测值之间并非是不相关的,相反地,其相关性的一种表现方式就是收益率序列的自相关函数呈现出缓慢的衰减模式,比如以双曲线形式衰减到零,这种现象称之为长期记忆性。通俗地说,长期记忆性指高阶自相关。若一个时间序列具有长期记忆性,则说明该序列的观测值之间不是独立的,用历史事件可以长期持续影响未来。若金融时间序列存在长期记忆性,那么现代投资理论、资产定价模型以及建立在有效市场理论假设下的经济理论将面临严重挑战。

 ARFIMA 模型的优势
传统时间序列模型都是建立在相距较远的两个观测值之间完全独立或者几乎独立的假设基础上的,这些模型反映的时间序列的自相关函数呈指数率迅速衰减。ARFIMA 模型通过时间序列进行分形差分参数 d 反映了时间序列的长期记忆过程,而通过他的 ARMA 部分(n+s 个参数)又反映了短期记忆过程,综合考虑了时间序列过程的长、短期记忆特性,因此,ARFIMA 模型既优于 ARMA 模型,又优于 FDN 模型,迄今为止,它是分析时间序列长期记忆特性最有效的工具之一。

 基于中国股市的长期记忆性实证分析
当 d<0 时,沪深 300 指数进入顶部或者底部区域,行情将要反转;
当 d>0 时,沪深 300 指数延续原来的趋势运行;
从 2005 年至今,时变分形差分参数 的长期择时效果良好,基本上捕捉到了大部分大趋势行情;
在 2010 年 9 月初发生一个错误信号;目前,d<0,表明沪深 300 指数进入底部区域。

内容目录

分形差分噪声
分形是什么
分形差分噪声的定义和性质
长期记忆过程
长期记忆性对传统金融理论的挑战
长期记忆性的定义
ARFIMA(n, d, s)模型
ARFIMA(n, d, s)模型介绍
ARFIMA(n, d, s)模型的记忆性分析
ARFIMA(n, d, s)模型的优势
ARFIMA(n, d, s)模型参数估计方法
基于中国股市的长期记忆性实证分析
展望

图表目录
图 1:Cantor 集.
图 2:Sierpinski 垫片
图 3:分形差分参数 d 和沪深 300 指数
表 1:ARFIMA 模型与 ARIMA 模型、ARMA 模型的比较

分形差分噪声

分形是什么

1967 年,美籍法国数学家 B.B.Mandelbrot 在 Science 杂志上第一次提出分形概念,其原意为不规则、支离破碎的物体。比如数学中的 Cantor 集(图 1)、Sierpinski 垫片(图 2)、Koch 曲线等,自然界中的蜿蜒曲折的海岸线,变换无穷的布朗运动轨迹等等。

分形是粗糙而且常不连续的,刻画分形体非光滑、非规则、破碎等复杂特性的参数是分形维。不同于欧几里得几何(或平面几何)中,物体是固体而且是连续的,也就是说,没有洞或空袭,它们就具有整数维。

分形的定义和性质

如今,分形的概念早已经从最初所指的形态上具有相似性这种几何意义上的狭义分形,扩展到结构、功能上等具有相似性这种统计意义上的广义分形。 Mandelbrot曾经给分形下过两个定义:
当一个集合满足下面任意一个条件时,就称该集合为分形:
(1)一个集合的分形维大于其拓扑维(1973);
(2)一个集合的任意局部与整体以某种形式相似(1982)。
定义 2 比定义 1 更广泛、更准确、更通俗。定义 2 虽然反应了分形的重要性质,但是自相似性并不能概括分形的全部属性。实际上,迄今为止,分形仍然没有一个严格的定义。一般地,分形应具有以下性质:
(1)分形集具有任意尺度上的比例细节,或者说它具有无限精细结构;
(2)分形集具有自相似的特征,要么是形态上的自相似或者统计意义上的自相似;
(3)一般地,分形集分形维数严格大于其拓扑维数;
(4)分形集无法用传统几何语言来表述,它既不是满足某些条件的点的轨迹,也不是某些简单方程的解集;
(5)在很多情况下,分形集由非常简单的方法定义,可能以变换的迭代产生;
(6)分形集的大小不能用一般意义上的测度来度量。
一般地,分形结构具有两个明显的特点及其对应的方法论:第一是自相似性。以分形客体的局部和整体之间的自相似性为有力工具,通过认识局部来反映和认识整体,以及通过认识整体来把握对局部的探究。第二是缺乏平滑性,处处不连续,亦不可微分。运用分形方法论,从无序中发现有序,从混沌中揭示规律。

分形差分噪声的定义和性质

布朗运动是整数维的随机过程,分形布朗运动则是布朗运动向分形维的推广。布朗运动的离散形式是随机游走,但是分形布朗的离散形式是分形差分噪声(Fractional Differencing Noise, FDN)。分形差分化试图将一个连续的分形布朗运动过程转变成为一个离散过程。整数差分仅仅是一个总的逼近方法,而且当这种简单的方法被强加在一个实际过程上时,常常导致过度差分问题,使原始数据中许多有用的数据特征被差分掉了,使得在参数估计和建模时产生较大偏差。

分形差分噪声定义

当 0<d<0.5 时,自相关系数为正,并且按双曲线率衰减,分形差分噪声过程是一个长期记忆过程。
当 5<d 时,自相关系数的绝对值序列之和为常数,分形差分噪声过程是一个短期记忆过程。

长期记忆过程

长期记忆性对传统金融理论的挑战

在有效市场理论框架下,资产价格变化遵循鞅模式,它具有两层含义:○1基于历史价格信息的资产价格变化的条件期望是零;○2不同期的资产价格变化之间是不相关的。但是,越来越多的实证研究发现,股票收益率序列的各个观测值之间并非是不相关的,相反地,其相关性的一种表现方式就是收益率序列的自相关函数呈现出缓慢的衰减模式,比如以双曲线形式衰减到零,这种现象称之为长期记忆性。通俗地说,长期记忆性指高阶自相关。若一个时间序列具有长期记忆性,则说明该序列的观测值之间不是独立的,用历史事件可以长期持续影响
未来。若金融时间序列存在长期记忆性,那么现代投资理论、资产定价模型以及建立在有效市场理论假设下的经济理论将面临严重挑战。

长期记忆性的定义

目前有关长期记忆过程的定义存在多种形式,比如从过程的自相关函数(Mcleod和 Hipel,1978)、自协方差函数(Rosenblatt,1956)、频谱密度函数(Helson 和Sarason,1967)、过程的总和特征(Taqqu,1975)等角度对长期记忆过程进行定义。但是比较容易理解的是通过过程的自相关系数总和的特征来进行定义,即:

则称该序列具有长期记忆性。

ARFIMA(n, d, s)模型

分形差分噪声(FDN)过程的提出改变了以往只研究整数维时间序列的局面,它将时间序列的维数由整数维推广到更为一般的分数维。然而,FND 过程又只能刻画时间序列的长期记忆性质,而不能描述序列短程相关性。AR、MA、ARMA、ARIMA 等传统时间序列模型能较好地刻画时间序列的短程相关性,但是不能描述时间序列的长期记忆特性。

ARFIMA(n, d, s)模型介绍

Granger、Joyeux(1980)以及 Hosking(1981)将分形差分噪声模型(FDN)与ARMA 模型结合起来提出了 ARFIMA 模型(Autoregressive Fractal IntergratedMoving Average Model),成为时间序列建模的前沿工具。
ARFIMA(n, d, s)模型的基本形式为:


ARFIMA(n, d, s)实际上是分形时间序列的均值过程,反映分形时间序列在一阶矩上的记忆性或相关性。实际上,AR、MA、ARMA、ARIMA 只是 ARFIMA 在d、n、s 取不同的特殊值时对应的特殊模型。比如,当 d=0 时,ARFIMA 模型就变成 ARMA 模型;当 d=1 时,ARFIMA 模型就变成 ARIMA 模型。

ARFIMA(n, d, s)模型的优势

传统时间序列模型都是建立在相距较远的两个观测值之间完全独立或者几乎独立的假设基础上的,这些模型反映的时间序列的自相关函数呈指数率迅速衰减。ARFIMA 模型通过时间序列进行分形差分参数 d 反映了时间序列的长期记忆过程,而通过他的 ARMA 部分(n+s 个参数)又反映了短期记忆过程,综合考虑了时间序列过程的长、短期记忆特性,因此,ARFIMA 模型既优于 ARMA 模型,又优于 FDN 模型,迄今为止,它是分析时间序列长期记忆特性最有效的工具之一。将 ARFIMA 模型与 ARIMA 模型和 ARMA 模型的部分特征进行对比更有利于对这些模型的理解,对比结果如表 1 所示。

ARFIMA(n, d, s)模型参数估计方法

分形差分模型的参数估计是一个比较复杂的问题。Baillie、Chung 和Tieslau(1992),Diebold 和 Rudebusch(1989, 1991),Cheung(1993),Cheung和 Lai(1993)等学者已经对此问题进行了许多有益的探索。在实证分析中,ARFIMA 模型参数估计有两种方法,即两步程序估计法和极大似然估计法。

两步程序估计法(GPH)两步程序估计法是由 Geweke 和 Porter-Hudak(1983)提出的一种半参数方法,因此也成为 GPH 估计法。GPH 估计法把参数估计过程分为两个步骤:第一步,单独估计出分形差分参数 d;第二步,根据分形差分参数的估计值进行分形差分后,再估计模型的其它各项参数。这种方法假定 ARFIMA(n, d, s)和 ARFIMA(0,d, 0)的分形差分算子相同,因此往往存在比较大的误差。

极大似然估计法(MLE)MLE 估计法是一种参数方法,估计 ARFIMA(n, d, s)模型的所有参数仅需要一个步骤。然而,当分形差分参数接近于 0.5 或者样本容量很小时,这种估计方法也会出现一定的偏差。MLE 估计法的关键问题是要求得 ARFIMA(n, d, s)的极大似然函数。

基于中国股市的长期记忆性实证分析

本部分我们运用 ARFIMA 模型来分析中国股市的长期记忆性,建立长期择时模型。基本思路是,使用极大似然估计方法来估计 ARFIMA (n, d, s)模型的所有参数,采用移动时间窗口(200 天)的方法计算表示长期记忆性的时变分形差分参数,结合中国股市大盘指数建立长期择时模型。

黄诒蓉(2005)等学者研究认为,阶数为 0或 1的ARFIMA 模型基本能反映问题,因此我们的研究范围仅集中在模型阶数取值为 0 或 1 的情况。当 n,s 取 0 或 1时,一共有 4 种情况,除了 ARFIMA(0 ,d, 0,)模型外,其它模型的单个参数均无法进行显著性 t 检验,因此,我们选择 ARFIMA(0 ,d, 0,)模型作为分析对象比较合适。ARFIMA(0 ,d, 0,)模型的形式为:

9

以 200 天为移动时间窗口,用 Matlab 编程实现 ARFIMA(0 ,d, 0,)模型所有参数估计,同时得到时变分形差分参数 ,如图 3 所示。

从图 3 我们发现几个规律:
(1) 当 d<0 时,沪深 300 指数进入顶部或者底部区域,行情将要反转;
(2) 当 d>0 时,沪深 300 指数延续原来的趋势运行;
(3) 从 2005 年至今,时变分形差分参数 的长期择时效果良好,基本上捕捉到了大部分大趋势行情;
(4) 在 2010 年 9 月初发生一个错误信号;
(5) 目前,d<0,表明沪深 300指数进入底部区域。

综上所述,从实证分析来看,运行时变分形差分参数 建立的股市长期择时模型在把握大趋势行情方面具有良好的效果。

展望

分形差分模型的研究内容十分丰富,也存在很多有待改进的问题:
第一,分形差分模型估计方法的改进。现有的估计方法均存在一定的误差,应该多从模型的限制条件、估计方法的适用性和算法等方面进行有意的探索。
第二,我们仅仅限于低阶分形差分模型的研究,而更高阶的模型是否具有更好的估计和预测效果,有待于进一步研究。
第三,我们所研究的模型仅考虑了交易量的影响,而未考虑杠杆效应、结构变化、非对称等因素的影响。因此,在模型中是否需要引入这些因素值得研究。
第四,本报告分形差分模型 ARFIMA 仅研究了一阶矩收益率序列的长期记忆特性,没有研究二阶矩收益波动序列的长期记忆特性。考虑收益波动序列长期记忆特性的 FIGARCH 模型也是值得研究的一个方向。

作者:国信证券金工团队