本文是一篇计算机论文,本文通过对主题推荐相关问题的问究,对于个性化主题推荐相关研究有了一定的了解。个性化主题推荐的研究实现了对用户个性化主题的快速推荐,主题推荐的关键技术在于如何根据挖掘用户的偏好主题,以及如何衡量主题之间的相关性,实现更加符合实际应用场景的个性化主题推荐。
1 绪论
1.1 研究背景与意义
随着互联网时代的到来,以及各种社交媒体和社交软件并发式的出现,人们可以接触到的数据越来越多。这些海量的数据往往带有一定范围的时空标记,并且存在着巨大的应用价值,对这些时空数据地有效处理能将数据转化为对人类有价值的信息,从而提高人们的生产生活效率,带来巨大的经济效益[1]。
现如今,时空数据被运用于生产生活的各个方面,例如智能交通、智能医疗、推荐系统、图像识别等,其中时空数据在推荐系统中的一项具体表现便是主题推荐。主题推荐就是在海量的时空数据中挖掘出最有影响力的一个或多个主题,并将这些主题以特定方式和形式推荐给用户的过程。据Facebook发布的最新数据显示,截止到2020年,Facebook每月活跃用户超过24.5亿,大量用户每天所产生的时空数据量是不可想象的,其中包含的数据价值也是不可估量的。在这些时空数据中寻找中心主题能使这些时空数据转化为营销活动的重要资源,如对交通轨迹的推荐或者是广告信息的传播和新产品的推广[2, 3]。因此,挖掘时空数据中有影响力的主题对这些营销应用程序至关重要。具体而言,推荐的主题在一定程度上代表了这些时空数据所表达的内容,具有很强的参考、应用价值。例如对用户的交通轨迹进行主题挖掘后,推荐给用户的轨迹可能是与用户偏好轨迹最相关的轨迹。
个性化主题推荐是主题推荐的进一步扩展,往往采用个性化主题推荐算法来进行,它首先利用特定的算法及结构来挖掘出时空数据中潜在的、有价值的用户偏好主题[4],再依据这些偏好主题和个性化主题推荐算法来确定用户可能需要的个性化主题,从而实现个性化主题推荐。个性化主题推荐算法筛选出的主题往往可以代表某个时空范围内的部分主流趋势,商家可以根据这些主流趋势来及时调整销售策略,或者研究人员可以根据这些主流趋势来确定未来研究的侧重方向。然而随着时空主题数据量的进一步增加,用户偏好的主题日趋复杂多样,导致推荐的个性化主题质量偏低,推荐效率变慢等问题。质量较高的主题具有很好的参考价值,能为相关人员提供很多便利,但是较低质量的主题不仅可能会误导商家或研究人员,甚至还会大大的浪费人们的时间和精力,甚至是经济成本,造成巨大的损失。
1.2 国内外研究现状
1.2.1 主题挖掘相关研究
主题挖掘是主题推荐过程中最重要的一个环节,它直接影响到主题推荐的质量。现有主题挖掘方面的研究大致可分为三种策略:(1)基于统计学规律的主题挖掘模型;(2)基于图的主题挖掘模型;(3)基于主题推断的主题挖掘模型。
基于统计学规律的主题挖掘模型[17],通常是根据主题在主题数据集(Corpus)中出现的频度再结合特定的权重算法来挖掘重要的主题。Lindsey等人[18]提出了一种PDLDA模型,它使用地是一种分层生成策略,其前提是下一个主题的贝叶斯变化点(Bayesian Change-Point)的概率取决于当前的主题。在文本中,两个连续的单词是否有关联取决于前一个主题的出现情况。但这些方法往往需要存储大量的主题地址信息,为此需要消耗较多的存储空间及查找时间,推荐效率较低。
基于图的主题挖掘模型[19],现有典型的方法较多,例如PageRank和TextRank,TextRank是PageRank的一种进阶算法。不同于LDA[20, 21]和HMM[22]模型,TextRank是一种无监督、且不需要过多的主题数据集来训练的模型,它首先将给定的自然语言文本分成一组单词或短语单元。然后根据单元之间的共生关系添加单元之间的边,并根据它们的得分对单元进行排序。Meng等人[23]使用了一个类别描述树(Category Tree)来描述主题类别的变化,并使用主题类别挖掘的方式来让用户更好的理解他们感兴趣的话题。此外,Yang等人[24]等人提出了一种名为WS-Rank的主题挖掘器,它将文本中的句子通过图进行关联,并根据不同句子的重要性进行区别对待。但WS-Rank算法并未考虑句子上下文的语义信息。Zhang等人[25]在层次语义图模型的基础上,提出了一种多维的主题挖掘方法,该方法通过结构分析和图分割的方式来实现多维主题挖掘。Meng等人[26]使用无监督和弱监督文本嵌入方法,结合上下文的语义信息来进行主题挖掘,再利用主题分类法增强对多维度文本的探索与研究。但以上所提到的方法往往都需要花费大量的时间进行模型算法的迭代,且没有考虑主题本身所具有的一些类别特征,使得推荐主题有效性差且推荐效率较低。
2 相关理论概述
2.1 主题挖掘模型
主题挖掘的目的就是将通过各种手段,将用户可能需要的、或具有一定参考价值的主题挖掘出来并推荐给用户。时空数据集下中的主题往往具有很多的主题属性,如主题出现的频度、用户对主题关注的热度、主题所属的类别等。而根据主题本身所具有的主题属性确定主题可能匹配用户需求的程度,并将匹配程度高的主题挖掘出来。
2.1.1 基于频度的主题挖掘模型
随着科学技术的发展,人类在社交、科研、生活、学习等方面产生的时空数据越来越多,而这些时空数据中所包含的价值也非常的巨大,为了充分利用这些时空数据,越来越多的研究人员会通过主题挖掘的方式将海量时空数据归结为一串主题的集合。同时研究者还发现,越是重要的、具有代表性的主题在人类所产生的时空数据中出现的次数越多。为此,根据这个规律,基于频度的主题挖掘模型应运而生,如图2.1所示,基于频度的主题挖掘模型是对时空数据环境中主题出现的频度进行统计,然后再根据主题出现频度的大小进行排序,最后将出现频度较高的主题推荐给用户。
2.2 个性化推荐模型
个性化推荐模型主要通过两种方式来应对不同用户的个性化推荐需求。第一种推荐方式为基于分类的个性化推荐:这种推荐方式主要是通过对用户的分类,将同类别用户感兴趣的主题推荐给用户。也就是将具有相同主题偏好的用户认定他们的兴趣偏好相同,从而进行个性化主题推荐。所以该类型的推荐可以分为两步:第一步是使用主题数据集训练出高效准确的个性化主题分类模型,并使用分类模型对主题进行分类;第二步是根据相似用户的兴趣给目标用户推荐主题。想要找到兴趣相似的用户并不难,记录下每个主题被哪些用户关注过,如果两个用户喜欢的相同主题很多,则就认为这两个用户对相同主题具有相同的主题类别偏好,于是个性化主题推荐系统就会根据用户所关注的相同主题类别给用户推荐相似类别的相同主题。第二种推荐方式为基于主题相关性的个性化推荐,所以这种方式的关键就在于如何找到相似主题;这里的相似主题并不是根据主题的内容是否相似来决定的,而是根据主题在不同场景下所具有的含义来决定的。即关注过某个主题的用户群体里面,有大部分人都同时关注过另一个主题,那就说明喜欢这个主题的人很大可能会喜欢另一个主题,那么就可以认为这两个主题的相似度很高。
2.2.1 基于分类的个性化推荐模型
基于分类的个性化推荐模型主要是对用户进行分类,个性化主题推荐效果都主要取决于分类模型的好坏,且对于不同的主题数据集可能需要训练不同的分类模型。以下介绍几种常见的主题分类模型。
(1)基于支持向量机(SVM)的个性化分类模型。在SVM模型中,可以使用多个超平面来对数据进行分类,并期望在优化过程中对所有数据点进行准确分类。但事实上,离超平面较远的点更容易被正确分类,并且对超平面的位置没有影响。那些靠近超平面的点很容易被错误分类。为此,如果能让所有的数据点都尽量远离超平面,并使几何间距最大化,模型的分类效果会更好,这就是SVM的原理。
(2)基于最近邻的个性化分类模型。基于最近邻的主题分类模型的原理是:如果一个主题的一些基本属性特征都符合某个主题类别的要求,那么可以认定这个主题就是属于这个类别。一般基于最近邻主题分类模型的构建主要分为三步:第一步是计算主题之间的距离:对于需要测试主题,计算该主题与每个主题的距离;第二步是找主题邻居:将该主题一定距离范围之内的K个主题作为该主题的近邻主题;第三步是将主题进行分类:将所有主题到各个主题类别之间的距离作为模型优化的依据。
3 时空主题挖掘算法研究 ................................... 19
3.1 系统流程及相关定义 ................................... 19
3.2 时空主题挖掘算法设计与实现 ............................... 20
4 个性化主题推荐算法研究 ..................................... 28
4.1 系统流程及相关定义 ................................ 28
4.2 个性化主题推荐算法设计与实现 ............................ 29
5 个性化主题推荐算法在智能交通轨迹推荐的应用 ......................... 45
5.1 智能交通轨迹推荐系统定义 .............................. 45
5.1.1 交通轨迹推荐框架 .................................. 45
5.1.2 系统流程及相关定义 ................................ 46
5 个性化主题推荐算法在智能交通轨迹推荐的应用
5.1 智能交通轨迹推荐系统定义
5.1.1 交通轨迹推荐框架
现有的智能交通轨迹推荐系统只能根据用户的出发地和目的地来推荐交通轨迹,不能根据用户的偏好和实际情景来个性化的推荐交通轨迹。事实上,用户的偏好和实际情景对用户的交通轨迹有着至关重要的影响。例如,在某条轨迹包含的路段上有用户的兴趣点或者是车辆剩余能源的原因,都可能会使得用户不满足于当前推荐的轨迹。为此,本章将时空主题挖掘算法和个性化主题挖掘推荐算法应用到智能交通轨迹推荐中,通过考虑用户的轨迹偏好和人-车-路之间的关系来解决交通轨迹推荐系统在实际应用时存在的问题,提高智能交通轨迹推荐系统的用户体验。应用过程主要分为两步,第一步利用时空主题挖掘算法挖掘出用户感兴趣的多个路段,并根据用户的目的地确定用户的偏好轨迹。第二步利用个性化主题挖掘推荐算法考虑实现在行驶过程中的实际情况和人-车-路之间的关系,实现对智能交通轨迹的个性化推荐。
6 总结与展望
6.1 总结
本文从个性化主题推荐的实际应用出发,研究时空主题数据下个性化主题推荐的特征及存在的问题,并提出有效的解决方法。本文研究的内容主要包括时空主题挖掘算法、个性化主题推荐算法和个性化主题推荐算法在智能交通轨迹推荐上的应用。在时空主题挖掘算法研究中,针对时空主题数据提出了一种时空主题挖掘算法。该算法考虑了主题在整个主题数据集中的重要性以及用户对每个主题对象的关注度,从而实现了用户偏好主题挖掘,除此之外,还介绍了一种网状和R-Tree相结合的结构来实现海量的时空主题数据存储,降低了主题数据的存储空间,并且加快了特定时空条件下用户偏好主题的挖掘效率。在个性化主题推荐算法研究中,以时空主题挖掘算法中挖掘的用户偏好主题为依据,通过个性化主题相关性子算法从海量的主题数据集中筛选出用户感兴趣的个性化主题,并通过个性化主题索引子算法将用户感兴趣区域内的主题快速的推荐给用户,解决因为时空主题数据量大而带来的推荐效率低等问题,实现了确定时空范围内用户个性化主题的推荐。个性化主题推荐算法在智能交通轨迹推荐上的应用研究中介绍了算法应用的具体过程,该过程使用个性化主题索引子算法来加速挖掘用户轨迹偏好的效率,并使用个性化主题相关性子算法比较轨迹之间人-车-路的相关性来实现了对用户的个性化交通轨迹推荐。本文将所提的算法在真实的轨迹数据集进行下实验,验证了算法的可行性和有效性,但是本文将所提的算法具有一定的缺陷,例如对用户偏好信息的考虑不够全面等。
参考文献(略)