本文是一篇金融论文,本文提出的情感趋势预测研究主要针对的是中国上证指数股市投资者在投资决策过程中的情感变化。虽然可以对市场中的投资者情绪变化趋势进行较为有效的预测,但是这种方法是否可以有效适用于个股领域投资者情感趋势预测,以及当股票所属领域不同时,投资者的情感变化规律又是否存在不同,都需要在进一步的研究中,设计实验来进行验证。
第一章 绪论
1.1 研究背景及意义
近年来,由于互联网技术对网络社交媒体发展的推动作用,大众习惯于在网络社交平台针对某一领域或某一热点话题发表个人观点。根据 2020 年 3 月发布的《2020 年中国地区数字报告》[1],相较于 2019 年 4 月的统计数据,中国活跃的社交媒体用户数量在近一年的时间内增长了 1.5%,这一数据意味着 72%的人口成为了社交媒体的活跃用户。热点领域及社会热点话题的相关动态在网络社交平台的传播十分迅速,事件的每一个发展阶段都有平台用户发表评论。这些评论一般内容精炼,观点明确,其中往往蕴含着大众发表观点时的情感倾向。除了具有情感倾向性,还具有实时动态性,即在不同时间点都可以对事件发表评论。这种实时动态性可以体现出评论所蕴涵的情感随时间的推移发生改变。每一不同时间点所发布的评论可能蕴含的情感是不同的,其改变在一定程度上反映了事件或话题的未来走向。
在金融市场及投资决策中,运用网络进行信息共享的重要性也逐渐展现。股票论坛就是网络社交媒体在金融投资领域应用的典型代表。它是股票投资者根据实时股票及股市变化情况发表个人观点,进行信息交流或对未来股市发展提出预测等活动的重要在线信息平台,包括诸如股吧,股市信息交流群之类的形式。
在中国经济迅猛发展及公民理财投资意识逐渐显现的 21 世纪,股民数量逐渐增多。根据中国证券登记结算有限责任公司最新数据显示[2],截止 2020 年 7月末,境内股票市场投资者数量较 2018 年同比增长 16%以上,达到近 1.8 亿,仅 7 月份单月新增投资者数量就达到 242.6 万。股民基数增大,股市信息发布及时,再加上互联网社交平台发展,投资者更倾向于在股票论坛上发布自己对实时股市的观点,通过这种方式提供的信息逐渐成为投资者进行投资决策的重要参考来源。
1.2 国内外研究现状
1.2.1 文本情感分析
挖掘情感观点及情感分析,是人们对实体、事件及其属性的意见、评价和情绪的计算研究[12],是当前自然语言处理重要任务之一。情感分析的概念最早是由Pang 等人[13]于 2002 年提出的,Nasukawa 等人[14]再次对此概念进行了阐述。由于互联网的发展及社交网络平台,文本情感分析也受到更多的关注。目前几种主流的方法包括:基于情感词典的方法,基于机器学习的方法以及基于深度学习的方法。
基于情感词典的文本情感分析方法是指根据情感常识进行构建某领域特有词典,通过对比文本当中对应的情感词进行情感分数计算,从而进行情感态度积极或消极的判断[15]。王勇等人[16]通过人工标注的方法对 2199 个情感词的强弱程度区分,构建了中文微博的情感极性词典,对中文微博进行了情感分类。胡荣等人[17]对照情感词典,采用极性计算的方法,对 MOOCs 课程评论进行情感分析,从而将正向和负向评论作为课程评分的重要指标。人工创建情感词典的成本过高也过于繁琐,研究人员近年来也致力于自动创建情感词典。Hu 等人[18]在对用户评论进行文本挖掘时,基于已有的开放语料库 WordNet 以及迭代循环的方法增加同义词和反义词集合,进行用户情感挖掘。Yang 等人[19]提出改进的 SO-PMI方法建立酒店评论情感词典,扩展词典正负词汇数,分析文本情感态度。一般来说,基于情感词典的方法是针对某一特定领域而言的,这就决定了在出现多领域及跨领域文本时,这一方法缺乏普适性,难以适应不同领域文本的特点。
第二章 相关理论方法研究
2.1 短文本情感分析方法研究
文本情感分析这一自然语言处理任务是目前研究的热点,短文本在互联网时代大量涌现,这使得这一任务逐渐为以短文本为研究重点。短文本情感分析是对诸如评论之类的短文本进行文本特征提取,从而来对文本情感极性进行判断的研究。在这一研究中,涉及的相关理论较多,本节主要对情感分析过程中的文本预处理,文本特征选择及文本向量化表示这三个方面进行介绍。
2.1.1 文本预处理
在自然语言处理的任务重中,一般情况下,数据预处理都是举足轻重的关键步骤,会对模型训练难易程度造成影响。在文本情感分析这一任务中也同样如此,需要对初始文本进行数据预处理操作,为后续的情感分类任务作准备。它通常包括文本数据清洗,分词处理和去停用词。下面对这几个部分进行详细介绍。
(1)文本数据清洗
在进行文本情感分类任务时,数据的来源一般是微博、论坛之类的社交平台,文本的内容和形式是多种多样的,其中包含的干扰信息也会因此增多,因此在进行文本情感分类的任务时,就需要将干扰信息除去,只有这样才能有效挖掘文本中包含的重要信息,对文本情感属性进行判断。常见的文本形式包括 TXT 文本,HTML 文本,XML 文本等,以 HTML 文本为例,HTML 文本中会包含很多的HTML 标签,诸如“body”、“title”等,这些标签对于后续的模型训练是毫无意义的。进行文本清洗目的就是将此类无用的非关键信息排除,只保留文本本身的文字信息。目前,对于清洗这些标签,无论是采用 Java 语言还是 Python 语言,都有相应的一些功能包例如 Jsoup、HtmlParser、BeautifulSoup 和 SGMLParser 来完成清洗工作。
2.2 时间序列模型方法研究
时间序列是将时间先后作为分类基准的统计序列数据[29]。时间序列预测是指通过对这组时间序列数据进行曲线拟合和数学建模,以获得目标数据下一时段的预测值。不同的时间序列,都有其自身的特点,大体上可以分为平稳的时间序列和非平稳的时间序列。现实应用当中,基本上绝大多数都是非平稳序列,理想化的完全平稳的时间序列出现的可能性是很小的,,这就需要进行序列平稳化操作。常见的时间序列预测方法针对的时间序列特点是不同的,例如,自回归模型(AR),移动平均模型(MA)和自回归移动平均模型(ARMA),他们主要针对的是平稳时间序列,而差分自回归移动平均模型(ARIMA)则是为非平稳时间序列分析而诞生的。根据研究内容,本节会对这几种模型进行介绍,也对时间序列分析的流程进行了说明,为后续将时间序列模型用于情感趋势预测提供了理论方法,以及进行实验的对比来验证所提情感趋势预测方法的优越性。
第三章 基于 BERT 模型的 BLSTM 投资者情感分析方法...............................18
3.1 基于 BERT 模型的文本表示方法......................18
3.1.1 BERT 模型整体结构..............................18
3.1.2 Transformer 编码器及多头注意力机制.......................................19
第四章 基于 ARIMA-GARCH 模型的投资者情感趋势预测.......................33
4.1 行为金融学与投资者情绪相关理论..............................33
4.1.1 行为金融学理论概述.....................................33
4.1.2 投资者情绪定义.........................................34
第五章 工作总结与展望.............................45
5.1 工作总结...........................................45
5.2 展望...............................45
第四章 基于 ARIMA-GARCH 模型的投资者情感趋势预测
4.1 行为金融学与投资者情绪相关理论
4.1.1 行为金融学理论概述
行为金融学是融合行为学,心理学和金融学等多种学科发展形成的一门新兴学科。在传统的标准金融学中,投资者被认为是理性的群体,他们能根据所获得的信息作出理性且正确的投资决策,并且认为这些决策还是能获得最大收益的最优决策。同时,所有的投资者是一样的,没有差别,均为理性的,面对投资中的不同风险态度是一致的。这时的市场被看作是有效的,不同的资产价格是稳定的,并且已经充分反映了信息,也被称作理性价格,这种价格不会因外在因素影响,只与内在价值有关。
然而,随着研究的深入,大量的研究结果和实证表明:投资者的态度在决策时不总是理性的。因为现实生活存在偶然因素和不可抗的外力事件,人的情感态度会因为很多现实因素而发生改变,从而对人的认知能力产生影响,认知能力的偏差直接决定金融投资决策的制定。越来越多的学者意识到,人的行为,心理和情感态度的作用不可忽视。传统的标准金融学知识无法解释很多金融市场异象,理性的有效市场假说和投资者心理解释并不适用当前金融市场,促使了行为金融学的诞生。
行为金融学从实证的角度出发,把投资过程变相看作是是一种心理过程,结合心理学、社会学、人类学来探究投资者的行为、心理和情绪导致投资者认知能力出现偏差及造成金融市场异象的原理。它与标准金融学的观点相反,投资者不是绝对理性的,在现实因素的影响下也会出现情绪化导致认知偏差的现象。并且,每个投资者都是独立的个体,不是同质的,由于个性特质的不同,行为方式、投资偏好和对待风险的态度也是各有不同的。
第五章 工作总结与展望
5.1 工作总结
本文主要对情感趋势预测方法进行了研究,主要工作内容包括以下 4 个方面:
(1)分析介绍了情感趋势预测的概念和相关研究,以及文本情感分析、时间序列趋势预测的国内外发展现状。
(2)通过对短文本情感分析,时间序列模型以及情感趋势预测分析相关技术及方法的详细阐述。分析出传统词向量模型由于分词造成的语义歧义、一词多义性问题,除此之外也分析了时间序列模型的优越性,为下一步对投资者评论文本情感分析及其情感变化趋势预测提供了思路。
(3)针对传统词向量模型的问题,提出了基于 BERT 模型的 BLSTM 情感分类算法。充分利用 BERT 模型可对中文文本以字符级别进行表示且准确率不受分词效果影响的优势,采用 BERT 模型对评论信息进行字向量转换。首先,对基于 BERT 模型的文本表示方法进行说明,对其内部构造及原理予以说明,然后详细展示了本文提出的基于 BERT 模型的 BLSTM 情感分类算法结构,包括对网络各层的介绍及模型的训练。最后,通过设置对比实验,对所提方法的有效性进行了证明,得到了较为理想的情感分类效果。
(4)提出了基于 ARIMA-GARCH 模型的情感趋势预测方法。首先,对行为金融学理论和投资者情绪定义进行了阐述,分析得出投资者情绪的变化会在一定程度上影响市场的发展及其进行投资决策。然后,结合情感分类的结果,计算固定时间单位的情感值,构造情感值时间序列。利用 ARIMA 的灵活性和 GARCH在处理异方差效应方面的优势,提出 ARIMA-GARCH 模型对情感趋势进行预测。通过设置对比实验表明,所提模型的预测效果最好,预测值曲线与原始值曲线的拟合程度最高,投资决策也可从情感趋势中获得启示,具有一定的参考意义。
参考文献(略)