论DNA序列分析法在金融数据时间序列中的应用
目录
1 引言
2 金融字符序列的特性分析
2•1标度特性分析
2•2金融字符序列中字频与字序特性的统计分析
3 DNA序列分析法在金融数据时间序列预测中的可能应用分析
4 结语
关键词 DNA,金融数据,时间序列,符号序列,自组织临界性理论(SOC)
1 引言DNA序列是一种由4个字母A、G、T、C表达的序列语言,在这个序列语言上不仅包含有制造人类全部蛋白质的信息,还有按照特定的时空模式把这些蛋白质装配成为生物体的四维调控信息,基因结构研究的基础是DNA序列结构的研究。作为由A、G、T、C 4个字符组成的一个有序字符串,任何呈现规律性的特征都可以称为结构。因而结构与功能的关系的研究便成为DNA序列研究的核心问题[1]。统计分析法是对DNA序列分析最基本的方法,人们在用统计方法对DNA序列作研究的过程中,建立并积累了一系列的研究手段[2, 3 \〗。金融系统是一个典型的远离平衡态的开放系统;是一个多目标、多变量、多层次的非线性系统;是受到自然环境和社会条件双重制约的自组织系统;是存在着各种尺度关联、且又存在着各种波动的复杂系统[4, 5]。金融系统的这些特点,使我们有可能从不同的角度,通过不同的方式去刻划、了解并分析金融系统的复杂性。而在金融物理的研究中,通过对金融数据的统计规律的分析来揭示其非线性动力学规律是一个重要的研究方向。因而,我们试图将在DNA序列统计分析中积累的一系列方法移植到对金融数据的时间序列的分析研究中来。时间序列是金融领域中最重要的一类数据形式[6],如何将数值形式的时间序列转换为字符形式表示的符号序列?由于本文所开展的一系列工作都要在这个离散的符号序列上展开,最终结论的有效性将在很大程度上受到符号表示精度的影响。这就要求做符号转化时,所形成的符号种类不能太多,且每一个符号应尽可能地代表时间序列中的某一种基本的、相对独立的变化模式,即所谓元模式,元模式是构成字符序列结构的最基本元素。进行金融数据的时间序列到字符序列转换的方法是考虑到价格升降为金融市场中最重要的数值反映,且升降大小又有差别,不能一概而论。因此,根据升降变化,选定角区间作为分类区间。角区间θ的定义是:若确定一个类标识字符的时间尺度为t,而金融时间序列在该时间尺度范围中变化大小为Δh(t),则相应角区间θ为θ=arctgΔh(t)t规定①45°≤θ<90°,类标识字符为R;②0°≤θ<45°,类标识字符为r;③-45°≤θ<0°,类标识字符为d;④-90°<θ<-45°,类标识字符为D. 我们引入了4个类标识字符R、r、d、D,其中,R代表快升模式;r代表一般升模式;d代表一般降模式;D代表快降模式。由此可将一个金融价格随时间变化的时间序列转化成一个由字符R、r、d、D表示的字符序列。可以看出,类标识字符R、r、d、D是有着明确的物理内涵的,即它们是复杂系统的能量输入或耗散大小的一种量度指标。依据这一分析思想,我们对香港金融市场中最重要的金融时间序列———恒生指数(1994,1995,1996)做了分析,并转化为相应的字符序列(见附录)。在字符时间尺度t=30 min的定义下,由恒生指数(1996年1月2日10∶01到1996年12月31日12∶29)构建的字符序列为RdddrrrRdrrrdRrRDrRdDrDDdrrRRDdRRrddDdddRDdDdrrrrDrdRdDRdrdr……这种线性分段有着下述几方面的特点:(1)具有很好的形态表达与分割能力。每一分段可以较好地代表一种相对独立的变化模式;(2)当字符时间尺度t不同时,可以获得不同的表示精度。支持对同一序列在不同尺度(或不同分辨率,或不同精度)下的观察;(3)线性分段相当于对时间序列作了平滑处理和缩减处理,变换后的数据总量大大减少,使我们更有可能观察数据之间的结构特点与相关信息。
2 金融字符序列的特性分析
2•1标度特性分析
[7, 8]在时间序列转化为字符序列的过程中,时间尺度t为重要的标度参数,t的大小不同,对时间序列的分析精度(或分辨率)也就不同;对同一个时间序列,其对应的字符序列长度,字符的占有量N(R)、N(r)、N(d)、N(D),以及字符之间的关连性也就不同。为此,对1994、1995、1996 3个年度的恒生指数序列,在12种不同的字符时间尺度t(t=5 min,10 min,…,60 min)下,构建的字符序列中的N(R)、N(r)、N(d)、N(D)进行了统计特性分析,并作了logN(R)-logt、logN(r)-logt、logN(d)-logt、logN(D)-logt图(见图1)。由字符幂律指数τ的计算与结果可以看到,香港证券市场在经过长期演化之后,是一个典型的自组织临界性系统,并具有如下的特性:①幂律关系的简单性反映了复杂金融系统的动力学规律的简单性;②幂律指数τ波动的范围的有限性反映了动力学规律的稳定性;③关于R、D的动力学规律与关于r、d的动力学规律的一致性,反映了动力学规律的普遍性;④字符幂律关系的双对数图为一很好的线性关系图,反映了香港证券市场的动力学规律的标度不变性。
2•2金融字符序列中字频与字序特性的统计分析
在序列分析中,具有较高出现频率的模式一般都具有特殊的意义,它可以帮助人们认识序列变化的规律、序列中隐含的信息,并由此为人们的决策和新数据的预测提供支持。在不同的字符序列中,每个字符(R、r、d、D)以及由这些字符构成的关键字(RR、Rr、Rd、RD、rr、rR、rd、rD、…)所出现的频率并不相同。R、r、d、D的频率知识给出了每个字母在整个字符序列中的丰度信息,而关键字的频率知识又给出了字母与字母之间的关联方式和关联程度等信息。因而对序列中字频特性的分析,有助于对由字符序列所反映的香港证券市场的动力学机制有更深入的认识与理解。基于Zipf定律[9],我们对1994、1995、1996 3个年度中关键字的平均个数-N的排序作双对数图,并引入了字序幂律关系指数δ。分析发现它们也存在着很好的幂律关系,其幂律指数δ见表2。这说明不仅由字母R、r、d、D构成的字符序列可反映香港证券市场是一个自组织临界性系统,而且由关键字所构成的字符序列也反映了香港证券市场是一个自组织临界性系统。且关键字的字序幂律关系指数δ对于我们分析证券市场的宏观统计规律是有积极意义的。
3 DNA序列分析法在金融数据时间序列预测中的可能应用分析
[10, 11]3•1序列分析中频繁模式的发现研究在不同的DNA序列中,每个碱基(A、G、T、C)出现的频率中含有关DNA序列的很多有用信息。基于这一考虑,分析长为S的一个字符序列,将该序列中R、r、d、D出现的频率分别记为PR、Pr、Pd、PD,引入内积概念,将频率作为四维向量A的4个分量,及A=(PR,Pr,Pd,PD),若在S尺度下有如下的符号序列集{A1,A2,…,An},则它们将构成如下的向量集:{A1,A2,…,An},现在对一个待测序列X,其S-1个字符完全确定,而最后一个字符不确定,但必取R,r,d,D中的一个,分别记为X(R)、X(r)、X(d)、X(D),由Hilbert空间中内积定义建立目标函数FR,r=∑X(R)•Aj∑X(r)•Aj,若FR,r>1,则X(R)可信;若FR,r<1,则X(r)可信;同样可计算FR,d、FR,D、Fd,r、FD,r…等。3•2序列分析中周期模式的发现研究同时基于周期模式对于提示市场变化规律的积极意义,开展了序列分析中周期模式的发现研究;基于有效自由度的观点,对分类样本(及符号序列集)分别用欧氏距离和马氏距离作为分析指标,来描述分类样本之间的关联性等特点。
4 结语本文通过时间序列到字符序列的转化,为金融物理学的深入研究设置了一个全新的平台。基于这一平台,讨论了金融数据的标度特性,并以香港金融市场中的恒生指数为例,得到了恒生指数的字符序列中存在的字符幂律关系与字序幂律关系的标度指数,从而使我们认识到香港证券市场是一个具有自组织临界性的复杂系统,其动力学统计特性具有深刻的简单性、稳定性、普遍性与标度不变性。同时,借助字符序列分析法,我们提出了几种分析模式,以期望对金融市场的变化趋势给出一些可能的预测,这方面的深入工作还有待于进一步地分析与探讨。结构与功能的关系是字符序列研究的核心问题之一,然而在上述开展的分析中,仅仅讨论了序列结构中的一系列统计结果。实际上,在一个字符序列中,4个字母所构成的一个序列结构表达了一定的词法和语法规则,因此我们对由字母构成的词(word)或关键词(key word)的了解更为强烈.因为只有词或关键词才能使我们对字符序列所表达的语言中的词法和语法有更深入地了解,而这种了解将会使得到的序列信息不仅只包含静态的结构信息,还包含了动态的四维时空的调控信息,这对复杂的金融动力学的研究具有更为积极的意义。
摘 要 通过线性分段将连续性的金融时间序列转化为离散性的字符序列,并基于DNA序列分析法,讨论了此类字符序列的标度特性,以及在金融数据时间序列预测中的可能应用。