代写电子商务论文模板:突发公共卫生事件网络舆情主题及情感时空演化思考

发布时间:2024-01-16 15:32:12 论文编辑:vicky

本文是一篇电子商务论文,本文以2021年Delta毒株流行期为研究对象,综合考虑疫情暴发规模、城市经纬度差异,并结合地理位置与社会空间双重影响。

第一章 绪论

1.1 研究背景与意义

随着智能手机的普及和移动通信技术的发展,各类app搭建的网络环境和移动互联网已经逐渐成为构建人们日常生活的重要一环。中国互联网络信息中心(CNNIC)在2022年2月发布的第49次《中国互联网络发展状况统计报告》[1]指出,截至2021年12月,我国互联网普及率为73%,使用人数高达10.32亿,其中99.7%为手机网民,且移动智能设备仍是使用频率最高的上网设备。20年初新冠疫情暴发后,为减少线下聚集与人员流动,在线办公、在线医疗等基于网络的事务得到了快速发展,线上线下新业务的融合速度加快,与此同时,此前用户已构成使用习惯的app使用时间和频次也有显著增加。

2020年后,新型冠状病毒引发的疫情在我国境内仍时有小范围暴发,在此期间,为了避免频繁陷入信息孤岛,大部分用户选择通过高频次使用互联网来保障自身与外界沟通的途径,线上办公、教学等行为导致的用户碎片时间增多,人们更倾向于通过网络来消耗这些碎片时间,从而进一步推进了用户行为习惯的形成。在各种层出不穷的app中,社交类app由于其社交属性和自媒体的兴起活跃用户人数始终居高不下,随着移动智能终端的全民化普及,社交网络平台已逐渐成为人民群众获取信息、交流沟通、表达意愿的重要渠道之一。

我国主流社交app包含了相对闭合的熟人社交软件微信、开放性较强且匿名的微博和论坛、深耕不同垂直领域的短视频等多种形式,相比较于社交沟通属性更强的微信和偏向娱乐性质的短视频,用户在可以通过发布文本、转发、点赞、评论、关注等操作来阐明观点和参与舆论交流的微博表达意愿更强。新浪发布的2021第三季财报称,截至三季度末,微博的月活达到了5.73亿用户,日活达到了2.48亿用户,其中94%的用户使用的是移动智能终端。随着人们社会意识和交流需求的提升,事件成为热点得益于微博的实时性和传播度,数以亿计的用户发布的文本消息和官方账号下的大量评论,都构成了民众对某一事件的态度指向,并使微博成为了舆情发酵和传播的主要平台。 

电子商务论文怎么写

1.2相关研究综述

1.2.1微博舆情研究综述

多类社交平台的高活跃、高留存用户促进了新媒体和自媒体的发展,如基于文本和图片的微信公众号和在传播链中占高权重的微博关键用户群大V账号、基于UGC分发大量优质内容的小红书社交分享平台,以视频为媒介的抖音和快手等短视频平台。自2009年8月上线以来,微博以其传播快、用户多的优势在短文本社交领域占据垄断地位,并使其成为了社会影响力极高的平台之一,同时也易导致舆情危机的产生。

由于微博这一特性,在传统的电视、广播、报纸等宣传渠道外,官方也开辟了在微博上的新媒体渠道,用户在这类账号下可以通过点赞、评论、转发等方式对事件进行表态和发表看法,评论和转发的热度越高,辐射到的用户数越广,同时引起的舆论声势越大。粉丝受众较多的自媒体发布的内容和人民群众自发推进的事件有时也会产生影响范围较大的舆情,如红黄蓝幼儿园事件是被章子怡转发后才迅速引起广泛讨论,杭州保姆纵火案事发后微博舆论飞速发酵。微博平台上的舆情可以在一定程度上反映出民众对事件的观点和态度,研究微博舆情,有助于政府及相关决策部门快速把握舆论走向、及时遏制谣言扩散、对舆情的可能发展趋势做出敏捷应对。

国内外对此类短文本社交平台的舆情研究已有一定规模,国外的研究主要集中在与微博类似的网站Twitter上,主要的研究方向有舆情的传播、应对、演化等,涵盖人文科学和社会科学多个学科专业。

第二章 关键方法与技术基础

2.1 中文分词方法

2.1.1 中文分词方法概述

对于自然语言文本,为了更好地进行主题挖掘,需要将语料库中的句子分割成词语并加以筛选。以英语为代表的日耳曼语族词与词之间以空格分开,一个单词即是有含义的词语,分词时只需将空格抽离便可得到分词结果,有一部分需要两个或多个单词组合表达语义的特定词组,如“New Orleans”“Santa Fe”等,可以通过在分词词典中添加专有词汇来解决。

汉藏语系的中文由独立的汉字组成句子,句子与句子之间用标点符号划分,中文词汇表达多样,无明显边界划分,有一个字的词汇(如“看”),多个字的词汇(如“发现”“交朋友”),和单字与组合均有语义的词汇(如“音乐”“剧”“音乐剧”)。因此处理中文文本信息前,需要进行分词处理,现有的中文主题挖掘方法,均是以已分词的语料库为前提。

常用的分词方法有三种:基于词典的分词方法,基于理解的分词方法和基于统计的分词方法[52]。基于词典的分词方法是存在一个词汇容量足够大的词典,将文本中的语句与词典一一对照,若与其中的词汇匹配则完成一次分词,根据切分顺序不同,有正向最大匹配和逆向最大匹配两种方式,将这两种方式结合的双向最大匹配法分词精度较高,结合了词图与词典的最短路径法也经常使用。基于理解的分词方法是通过模拟人类对句子的思考方式来区分词汇,依托对语法和语义的规则和知识理解来辨别分词是否出现歧义,由于汉语存在调换词语先后顺序即可改变句子含义的复杂结构,这种分词方法精确度不高,因此使用较少。基于统计的分词方法无需分词词典,是通过对相邻的字同时出现频率的统计来判断其构成一个词语的可信度,但可能提取出共现频率高而非词组的词语,错误率较高,另一类基于统计的方式是通过机器学习掌握分词规则,需预先准备已分好词的语料库训练,常用的基于统计的分词方法有隐马尔可夫模型、最大熵模型等。

2.2 主题模型

2.2.1 LDA主题模型简介

在海量无显著规律的文档中寻找话题热点和规律,是大数据时代经常需要面对的问题,主题模型是解决这一难点的重要方法之一。主题模型由文档、主题、词三层结构构成,是一种能够挖掘出文本中的潜在主题的算法。在一篇无序的文档中,可能包含多个主题,与该主题相关的词以比其它词更高的频率出现,主题模型的作用就是通过建模挖掘出与这些词紧密相关的主题。如在一篇文档中,在与“小米”相关的主题中经常出现的词汇包含两种情况,分别是“雷军”“系统”“公司”,和“斤”“煮粥”“味道”,那么可以得出结论,该文档有两个主题,分别是小米手机和可食用小米,这两个主题在文档中出现的频率和与其相关的词出现的频率基本一致。 常用的主题模型包括PLSA模型和LDA模型。PLSA模型的生成过程为:在一个语料库中,假设文档与文档之间是相互独立的,则对于每篇文档,其包含的所有主题都存在唯一确定的概率分布,各主题概率不一,每个主题下的词也有固定的对应的概率分布,文档-主题和主题-词均服从多项分布,该语料库的概率分布可由所有文档的概率分布生成,此模型可用变分推断EM算法进行改进求出最优解。Blei[32]提出的LDA模型的理念为:文档中的不同主题是由概率模型选择的,该主题下的词语是根据主题对词语的概率分布所得。PLSA模型中的两种分布概率分布是不变的,而LDA主题模型认为主题分布和词分布是一种贝叶斯概率模型,即文档-主题和主题-词的多项式分布均是流动的,因此LDA模型是在PLSA模型的基础上加入了狄利克雷先验分布,而多项式分布和狄利克雷分布是共轭的,所以主题分布和词分布采取了狄利克雷分布为共轭先验分布。

第三章 突发公共卫生事件网络舆情主题情感分析框架 ....................................... 19

3.1 研究框架................................... 19

3.2 数据采集....................................... 20

第四章 主题和情感模型构建与实证分析 ..................................... 32

4.1 突发公共卫生事件舆情时空主题分析......................... 32

4.1.1 LDA主题模型构建 ............................... 32

4.1.2 网络舆情主题时空演化分析................................. 33

第五章 总结与展望 ...................................... 42

第四章 主题和情感模型构建与实证分析

4.1 突发公共卫生事件舆情时空主题分析

4.1.1 LDA主题模型构建

以 “新冠肺炎”为关键词采集到1月2日至2月12日、3月30日至4月29日、7月20日至8月20日的微博数量分别为20万条、6.4万条、16.6万条,去除重复项后分别剩余14万条、5.1万条、13万条,以城市名为关键词进行筛选后,分别剩余19063条、6042条、20463条微博数据。经过筛选、清洗、分词的数据预处理过程后,得到以时间和空间为参考变量的筛选过的结构化数据,为分别以“石家庄”“瑞丽”“南京”为地理关键词在1月2日至2月12日、3月30日至4月29日、7月20日至8月20日的语料库。经上文论述,本文将使用LDA主题模型来进行微博舆情主题的挖掘和分析。

分别计算三个语料库中不同主题个数下的主题一致性得分,选取得分最高的数目为该时空下的主题个数。以石家庄为例,基于已清洗分词的语料库构建的词袋模型,使用Python环境下gensim库中的CoherenceModel函数分别计算主题个数为3、4、5、6时的主题一致性,得到结果如表4-1所示。在主题个数为4时,主题一致性得分最高,主题个数为3时主题一致性表现最差,主题个数为5或6时,主题一致性得分与主题个数为4时差距不大,但主题数目过多易导致主题之间缺乏差异性,因此最终确定石家庄微博舆情主题个数为4。

电子商务论文参考

第五章 总结与展望

本文基于微博大数据,利用引入未登录词词典的LDA主题模型和结合新分词方法的SnowNLP库,引入时间维度和空间维度构建出主题挖掘模型和情感演化模型,使用Gephi软件可视化情感图谱,分析了在不同时间节点上暴发疫情的三个城市的微博舆情主题和情感演化趋势,分别得到了不同时空下的主题-词分布表、情感趋势和情感演化图谱。在理论层面,本研究验证了从时空维度探索舆情主题和情感演化分析的可行性,并证实了地区差异对舆情发展的影响特征。在实践层面,本研究分析在不同时间和地域上舆情的重点话题的演化趋势和情感的流动倾向,结合具体案例和可视化研究,可以为政府部门和相关决策者在突发公共卫生事件上的舆情监控、舆情预测和舆情引导方向提供有针对性的依据和决策参考。

本文以2021年Delta毒株流行期为研究对象,综合考虑疫情暴发规模、城市经纬度差异,并结合地理位置与社会空间双重影响,首先选取暴发时长和感染规模接近的几个城市,考虑到在社会空间中,民主化、经济和农业发展、文化程度等对舆情传播和走向有一定的影响,如文化开放地区的网民对舆情的关注度和参与积极性较高,在物理空间中,气候、地形、人口分布对舆情发展均有所影响,因此综合选取地理位置、经济水平、政治文化具有差异化的三个城市为研究对象,分别是石家庄、瑞丽和南京。在人群构成上,20-30岁的微博用户占比为80%,根据人口普查年龄结构数据可得,该年龄段人口占比在南京最高,在瑞丽最低,其中石家庄30-50的中年人数占比较高,瑞丽0-20岁的青少年人口最多,也会对舆情关注重点和热度有一定影响。可以发现,微博舆情主题热度和个数在南京最高,石家庄次之,瑞丽最低,三个城市的舆情均集中在疫情通报、疫情防控、疫情溯源等主题上。瑞丽城市体量小,在互联网发声易被忽视,且由于其特殊地理位置舆情全部集中在防治措施上。“疫情通报”是政府开展信息披露,维护公众知情权,使得网民正确认识和理解疫情发展和治理动态。“疫情防控”是政府部门工作的核心,也是公众参与度最高的下线突发公共卫生事件治理的措施。“疫情溯源”充分表明疫情防控追溯源头的重要性。因此,在舆情引导方向上要结合该地的地理位置、经济文化、当地习俗等综合考虑,如针对舆情热度较低的地区,需及时找出其发声体量小的原因,结合当地的防控压力和经济文化等因素,及时给予关注和援助,在面对舆情热度高的城市时,应快速响应引起舆情的主题,做到回应及时、疏导迅速、解决顺利,经济欠发达地区网民发声较少需要着重关注、防控压力重的地区负面情绪较多应当适度引导。

参考文献(略)

提交代写需求

如果您有论文代写需求,可以通过下面的方式联系我们。