截图
简介
这是微博数据挖掘ppt,包括了微博数据采集,试验数据来自新浪微博,微博社交网络特征分析,另一个需要分析的问题是认证用户的微博是否具有更强的传播效力等内容,欢迎点击下载。
微博数据挖掘ppt是由红软PPT免费下载网推荐的一款课件PPT类型的PowerPoint.
主要研究内容
微博数据采集
微博社交网络特征分析
用户权重排序算法
一、微博数据采集
微博的授权认证是在加密模式下进行的,即用户在不向第三方透露自身用户名与密码的同时,使第三方网络应用正确识别用户身份并提供访问特定用户资源的权限。
新浪微博的授权方式通过OAUTH认证实现,OAUTH认证为用户资源的授权提供了一个安全的、开放而又简易的标准,被用于新浪微博API的用户验证协议。
一、微博数据采集
一、微博数据采集
试验数据来自新浪微博,收集于两个时间段。采集过程首先通过用户标签搜索,返回至多1000位含有某共同标签的用户信息,作为源用户。
源用户的信息通过网页解析模型获得。之后通过基于API的数据采集模式收集所有源用户的:(1)全部微博信息;(2)微博的评论信息;(3)所有用户关注好友信息;(4)所有用户粉丝好友信息 返回顺序以新浪微博自定的用户重要性排序。本试验通过搜索词“滑雪”得到977位具有滑雪标签的用户,数据信息如表
二、微博社交网络特征分析
1、 用户特征分析
微博社交网络中的用户好友关系是双向的,新浪微博中,如果用户A关注了用户B,那么用户B称为用户A的关注好友,用户A称为用户B的粉丝。微博社交网络中,利用G=(U,E)描述网络的结构特征,其中U表示网络中的节点,即用户;E表示用户之间存在的有向连接关系。
网络拓扑关系G中,定义一个用户的关注好友数量为这个用户的出度,一个用户的粉丝数量为这个用户的入度。于是用户的出度与入度构成了 网络节点的度分布特征。
通过上表中977个具有相同用户标签的源用户抓取所存好友与粉丝信息,前后两个时间段共获得1,006,769位不重复的独立用户,这些用户的度分布特征分别用下图表示
二、微博社交网络特征分析
二、微博社交网络特征分析
另一个需要分析的问题是认证用户的微博是否具有更强的传播效力
通过977位源用户的所有微博回复与转发数量计算平均值得到分布结果。其中方格为认证用户,圆形为普通用户,坐标横轴为用户微博平均回复率、纵轴为用户微博平均转发率。可以看出,认证用户具有更多的粉丝人数和更高的转发数量。
二、微博社交网络特征分析
2、 微博特征分析
一个用户的微博受关注程度通常通过用户微博的回复数量与转发数量来衡量。新浪微博中回复与转发对应着三种用户行为:
(1)仅回复某条微博,则该微博的评论数量+1;
(2)仅转发某条微博,则原微博中转发数量+1,评论数量不变;
(3)回复并且转发某条微博,则原始微博的评论数与转发数分别+1。因此一条微博的转发数量与评论数量既有区别,又存在关联关系。因此一条微博的转发数量与评论数量既有区别,又存在关联关系。
下图显示了明星用户(新浪微博认证用户)与普通用户所发布微博转发数量与回复数量间的对应关系。试验中,收集每个用户最新发布的200条微博,计算出这些微博的平均回复率与转发率,分别作为该用户节点在图中分布位置的横坐标与纵坐标。
二、微博社交网络特征分析
可以看出,用户微博的平均转发率与回复率之存很强的线性关系,因此一个用户在网络中的影响力可以通过其微博的平均转发率和回复率来衡量。
二、微博社交网络特征分析
二、微博社交网络特征分析
3、用户影响力与群体结构演化分析
下图为用户度特征随着时间的变化趋势
二、微博社交网络特征分析
由图可知,曲线随着时间的延伸缓慢向右移动,当到达X轴的10平方后逐渐汇合。上述变化趋势说明了对于网络中的大多数普通用户,其粉丝数量随着时间的增长为一个递增的过程,因此整个网络的入度也是一个递增的过程。也就是说,粉丝与好友比值位于0.2到10之间的用户在将来的用户行为中,更倾向于接收新的粉丝用户而不是主动添加好友。
图中所表述现象可以通过现实中真实的用户行为来说明:当微博社交网络中新增加一个用户时,通常的用户行为往往是首先添加自己感兴趣的关注好友。因为一个人的关注内容和社交热情有限,对于一个老用户来说,他的主要精力将在维护自己已经在的朋友关系而不是持续关注新的用户。在这个过程中,网络中不断有新的用户节点添加进来,这些用户的主要行为将增加老用户的入度数位,因此图中的曲线呈现出整体右移的现象。
因此,微博内容与微博作者的用户活跃度均是影响微博传播性能的参考特征,在评价用户影响力与研究微博传播过程中应当被充分考虑。
三、用户权重排序算法
1、基于HITS算法旳节点权重分析
微博作者的用户权威性对于信息的传播过程具有重要的影响。
HITS (Hypertext-Induced Topic Search)算法是一种重要的互联网页面权重排序算法。
HITS算法的思想是:每一个互联网中的页面存在两个值:hub值与authority值。网页的hub值由该页面所指向的所有网页的authority值构成;网页的authority值由指向该页面的所有网页hub值构成。
三、用户权重排序算法
ait与hit分别是结点/在时刻即第f次迭代过程后的authority 与 hub 数值,所有网络节点ai(t=0)与hi(t=0)的初始值为1。
重复公式3.1至多公式3.4计算过程,直到第n次迭代运算HITS算法排序结果趋向稳定后停止计算
通过微博用户的分析可以得到规律:一个高权重用户所关注的好友越多,那么关注的每个用户将越不重要;反之如果关注的好友越少,那么关注的每个用户将越重要
为了避免一个权威用户过量地将自身权威性传递给该用户的每一个好友,改进HITS算法的迭代过程利用公式3.5取代公式3.2
公式3.5中Oi,out表示用户i的出度,即用户所指向的好友y的数量。如果一个用户所连接的好友越多,那么传递给每一个好友的权重值则越小。
三、用户权重排序算法
2、用户影响力模型
在新浪微博的评论机制中,每一次用户的转发行为都允许用户回复微博的原始作者与传播关系中的上一级用户。为了避免上述机制对于用户影响力传播关系分析的干扰,只选择转发数量为0的微博进行试验
由此得出:用户的影响力并不在微博传播过程中形成迭代关系
公式3.6为优化后的改进HITS算法,再需要进行用户权重的迭代计算其中用户j为用户i的粉丝,Fj表示用户j的粉丝数量,nj为用户j的好友数量
三、用户权重排序算法
其实现过程如下
三、用户权重排序算法
用户影响力模型由用户粉丝数量与粉丝质量加权组成
公式3.7中第一部分Ni代表用户/的粉丝数量;第二部分为用户每一位粉丝对用户影响力的贡献之和,即粉丝质量。其中粉丝质量的累加为公式3.6中改进HITS算法的思想。参数u用于调节两部分的权重
定义Ci,j为用户i与该用户的粉丝j之间的用户交互指数,其数值由公式3.8决定:
公式3.8中,Ti与Tj分别代表用户i与用户j最新发布的若干条微博数量,根据实际取最新200条
三、用户权重排序算法
式3.8中,Ti与Tj分别代表用户i与用户j最新发布的若干条微博数量,根据实际取最新200条。Rj,i为用户j对于微博i的评论次数; Rtj,i与Mj,i分别代表用户j转发与提及用户i的微博次数。式中系数β为一个正整数用来线性放大用户j对于用户i交互指数的影响。
利用用户交互指数Ci,j对公式3.8中用户影响力模型进行改进,得到:
为进一步屏蔽某高权重粉丝偶尔评论用户单条微博对于这个用户平均影响力的评判,用户影响力模型通过公式3.10与公式3.11继续调节个别现象对于用户权重的影响
三、用户权重排序算法
式3.14中,Ti与Tj分别用户最新发布的微博数量;Ni与Nj分别为为用户i,j的粉丝数量。
Fj,f为用户粉丝的平均粉丝拥有数;Fj,(f-1)表示该用户除去粉丝y后的粉丝平均粉丝拥有数.
因此参数ɑ的取值范围为(0, 1],当用i存在一个极大权重粉丝j的评论行为时,参数ɑ将用来调节高权重粉丝对于该用户的影响。
三、用户权重排序算法
3、用户活跃度模型
用户行为的时间特性对于微博的传播力具有重要的影响。但当今主流的用户影响力模型大都未对时间信息进行分析。
提出用户活跃度参考模型,使得用户影响力结合时间戳信息,反应当前用户在最近一段特定时间段的微博交互参与情况。
Tt为微博数量,Rtt为转发数量,Mt为提及数量
三、用户权重排序算法
考虑用户参与微博交互活动的参与质量,公式3.16引入用户微博的转发与评论效力用以平衡原有用户活跃度特征:
其中 rre和rrt分别表示用户历史微博信息的平均回复率与平均转发率。
上式可以有效避免一个广告用户或者恶意发送消息用户对于用户活跃度特征判定的影响。
三、用户权重排序算法
4、用户权重模型与参数选择
最终用户权重计算模型为:
试验选取新浪微博中来自作者的508位粉丝与关注好友作为源用户,以便将本算法用户排序结果与新浪微博官方用户排名进行比较。
近似模拟用户影响力模型公式如下:
其中,Nf为用户实际粉丝数量,通过用户个人信息抓取API接口调用获得
Nobtain表示通过API用户粉旬接口实际得到的用户好友数量。
三、用户权重排序算法
在下列测试中,β设置为200,用户的影响力排名与计算结果如表所示
三、用户权重排序算法
通过用户影响力模型计算得到的排名前10的用户均为新浪微博认证用户。
其中一部分用户的影响力主要来自用户自身的粉丝数量,如排名第1、2、3、5位的用户;
也有一部分用户其影响力主要来自他们髙质量的粉丝,如排名第4、8,尤其是排名第10位的用户。
当排序结果扩展到排名前20位的用户时,其中18人为新浪微博认证用户,2位非新浪微博认证用户的入围主要源自其粉丝的高影响力。
三、用户权重排序算法
下表列出了用户活跃度排名前10的用户信息
三、用户权重排序算法
在用户活跃度排名前10的用户中,只有1位用户为非新浪认证用户,扩展到排名前20的用户中,有4位用户为非认证用户。
与用户影响力排名相比,用户活跃度特征排名前10的用户只有2位用户发生了改变,其余用户只是在排序位置上有所变化。
这些变化在排名前10位的用户中,尤其是新浪微博官方认证用户中并不明显,因为现实中明星用户的微博更容易被广泛关注,通常会吸引较高的转发与回复,他们微博强大的传播力为用户活跃度特征做出了主要贡献。
而对于微博中的普通用户,其用户活跃度很大程度上取决于自身微博社交活动的参与程度,也就是近期发布微博的频率。
三、用户权重排序算法
利用用户权重模型与 λ = 4.5 参数取值计算得到508位用户的等级排序结果。
其中 表1 为作者粉丝用户排序结果,表2 为用户关注用户排序结果。
前10的粉丝用户中,有4位用户为非新浪微博认证用户,排名前20的粉丝用户中,有10位用户为非认证用户。
三、用户权重排序算法
关注用户权重排名的前十名中,所有用户均为新浪微博认证用户;
排名前20的好友用户中,有18人为新浪微博认证用户。
三、用户权重排序算法
本文模型计算结果只有14位不同的用户先后进入过作者10大好友用户排行榜,而进入作者粉丝用户10大排行榜的用户达到34人。
这个现象说明了拥有较高权威性的用户(主要存在于作者好友列表中),其权重主要源自用户自身的影响力水平,通常可以保持一个相对稳定的权重得分;
而普通用户(主要存在于作者粉丝列表中)的权重得分在很大程度上取决于用户最近一段时间的微博活动参与度与微博质量,因此会有较大的波动。
END
吴中超 P14142018王瑜 P14142019
杨蔚 P14142020
张鹏 P14142021
展开