论文查重服务12年
211、985指定查重网
  • 全国咨询电话:
    0571-28284626

基于用户关系和文本的微博用户相似性度量

作者:admin 来源:www.chachong.net 时间:2021-07-03 18:01:16

基于用户关系和文本的微博用户相似性度量

摘要:用户相似性论文的检索重量是用户关系分析的基础,在推荐系统、用户集群、社区发现等方面具有重要意义。对于微博用户的社交关系和微博文本,分别提供类似度计算方法,并构建加权集成的用户类似性度量方法。

最后与用户的类似度量的实验分析进行比较,对于传统的用户类似度的计算方法,所提出的方法在准确性和回收率方面明显提高,并且显示了该方法度量的用户相似性的有效性。微博是一个基于用户社交关系发布、共享和获取信息的在线社交平台,在微博上,可以随时发送信息,转发感兴趣的微博内容,进行点评和评论。据新浪微博官方发布的数据显示,目前微博月的活动用户已经超过4亿人,构成了庞大的用户网络,分析并挖掘微博平台上用户的特点以及发布的内容和关注关系这是目前流行的研究方向,用户的类似度计算是其中重要的研究点。

用户类似度计算相关技术可以用于朋友推荐、类似的用户发现,并且可以在大容量用户中发掘与目标用户的关系、兴趣等特征维度相似的用户,并向目标用户推荐。此外,用户类似度计算在用户集群、社区发现、热点微博客跟踪等方面具有重要意义[2]。

本论文将社会关系(兴趣、粉丝)和微博客文本的两个属性相结合,并提供微博客用户的类似性度量方法。1社交媒体上关于用户的信息,总体来说,①用户的背景信息包括年龄、性别、地理位置、教育、职业、标签信息等。②用户的社交关系包括兴趣、粉丝、转发、称赞等。③用户发布的微博客信息。现有研究的许多工作是基于上述三个信息中的一个或多个来构建用户的类似度量的方法。

Bhattacharyya等[3]从用户的背景信息中提取关键字,通过计算关键字的意思距离来表示关键字的类似性,进而测量用户之间的类似度。分析Twitter用户的兴趣和粉丝的关系,利用由用户关系构成的网络构造来测量用户之间的相似性。

Kahanda等[5]利用用户之间的传送、注释、文件传送等交互行为来测量用户的类似度。Xiang等[6]根据用户的属性(包括学校、职场、兴趣小组、地理位置等)和用户之间的相互作用来计算用户关系的强度。徐志明等[7]在进行微博用户的类似性度量时,提供用户的背景信息、微博文本、社交信息等各种属性的类似度计算方法,实验各属性对类似度计算的影响大小,社交信息对用户的类似性度量影响最大。我认为有响力。

郑志绪等[8]将微博用户自身的背景信息和交互信息的两个属性结合起来,利用层级分析法决定各属性的权利值,最后构建综合的用户类似度计算模型。姚雅修等[9]分别计算用户间社交信息的类似度、微博内容的类似度和交互关系的类似度,最后融合各类类似度,导出两个用户的总类似度,进行用户推荐。本文使用用户的社交关系和微博客文本来构建用户的类似性度量方法,并提供基于用户的社交关系信息和微博客文本信息的用户类似度计算方法。基于Jaccard[10-11]方法,用户之间的公共朋友根据热而被赋予权重,类似度的计算结果变得更合理。

②关于微博文本的类似度计算,使用LDA模型[12]表示微博文本,计算类似度,比基于TF-IDF的VSM模型[13-14]有效地降低文本向量的维度,提高了类似度计算的效果。2微博客用户类似度计算模式2.1用户社交关系类似度计算在微博客平台上存在用户间关心和关心的关系,关注用户感兴趣的账户,吸引其他用户到自己的粉丝兴趣和关心的关系不断扩大,构成了庞大的社交网络。

微博客用户的关心信息和粉丝信息直观地反映了用户的兴趣,两个微博用户的共同粉丝和关心者很多,表明他们有着更密切的社交联系。这个也可以在一定程度上反映用户之间的类似度。对于微博客用户u,其社交信息如上所述示为Jaccard。该方法通过两个用户之间的共同感兴趣的用户的比例来测量用户之间的类似度。该方法对于不同的共同感兴趣的用户,不管状况如何,无论是更高的热用户(即风机较多)还是一般用户,对用户类似度的计算结果的影响都相同。但是,实际上并不是这样。微博平台上有很受欢迎的用户。这些受欢迎的用户是超级粉丝,受到很多微博用户的喜爱。对这样受欢迎的用户感兴趣,往往不能反映出用户真正的兴趣。相比之下,微博用户在某种意义上反映了用户真正的兴趣。

基于上述现象,在计算用户u和用户v感兴趣的类似度时,越是关注微博用户z的粉丝越多,在计算感兴趣的类似度时权重越小。与此相对,粉丝数越少,计算关注度时的分量越大。基于这种想法,本文中基于Jaccard方法,可以基于2.2来表示每个共同的兴趣因其热而具有不同的权重,并且用户感兴趣的信息的类似度的计算公式。LDA用户微博文本类似度计算可以使用户在微博平台上随时发表自己的想法和见解,并且可以转发和评论感兴趣的用户的微博内容。微博文本是微博用户之间交互交流的主要媒体,微博文本直接表达了用户感兴趣的内容和话题。

两个用户所投稿的微博客文本的类似度可以有效地表示两个用户之间的类似度。基于TF-IDF的矢量空间模型(VSM)文本类似度计算方法被广泛用于微博客文本类似度计算[7,9]。

将用户的微博文本拼接在一个文档中,对关键字进行分类、提取,使用TF-IDF计算关键字权重,最终将用户的微博表示为一个文本向量,根据余弦类似度计算两个用户的微博文本的类似度做。VSM将文档表示为高纬度、稀疏的文本向量,由于计算效率不高,VSM不能忽略单词之间的关系,完全建模自然语言的复杂性问题。对于上述方法中存在的缺陷,本文使用LDA主题模型进行了文本类似度计算。

LDA(LatentDirichletAlloca?tion)模型是对文档数据的主题信息进行建模的方法,并且具有文档主题-特征词的三层糊精网络结构。本文利用LDA模型对用户的微博文本进行建模,即利用文本的统计特性,挖掘不同主题与单词之间的潜在关系,以主题分布的形式展开文档,通过该分布计算文本的类似度。

使用LDA主题模型来计算文本的类似度可以比矢量空间模型更好地表示文本的意义,并且可以有效地降低文本向量的维度。用户投稿的微博客

推荐阅读,更多相关内容:

免费的毕业论文检测软件可靠吗?

知网查重系统有自动降重的功能吗?

学术不端网检测系统查重系统的四大优势

2020cnki官方查重哪些是属于学术不端的行为?

硕士研究生投稿论文检测系统文献库有哪些

本科发表论文吗本科发表论文章 本科发表论文在哪里发表

北京工商大学硕士论文查重要求及重复率 北京工商大学硕士论文字数一

在哪里可以买毕业论文ppt在哪里可以买毕业论文答辩

查重规则咋地幸免

中国知网查重能测试英文论文吗?

自己可以提前进行论文查重吗?

论文怎么查重论文软件-论文怎么查重没通过

为了不让同学们在查重上浪费时间今天分享一下查重经验

中国硕士知网查重率一篇多少钱?

本科毕业论文知网检测系统怎样检测 中国知网PMLC本科毕业论文查重检测系统

保定学院硕士论文查重要求及重复率

学术不端论文查重编号真伪验证

最新的西安电子科技大学通信工程学院研究生论文查重通知 西安电子科技大学通信工程学院在哪个校区

三峡电力职业学院硕士论文查重要求及重复率一

北京吉利大学专科论文查重要求及重复率 北京吉利大学艺术专业专科网上能查到吗一

学术不端外语论文查重检测

淘宝知网查重多次对学校有没有影响

博士论文检测系统文献对比库有哪些

毕业论文开题报告有什么格式? 学前教育毕业论文开题报告格式模板

论文查重系统优点 中南财经政法大学论文查重系统