页面排名,或页面排名,也被称为页面排名,谷歌左排名或页面排名。
这是拉里,谷歌的创始人?佩奇(拉里;佩奇)和谢尔盖?布林(谢尔盖;Brin)在1997年建立早期搜索系统的原型时提出了链接分析算法。自从谷歌在商业领域取得前所未有的成功以来,该算法已经成为其他搜索引擎和学术界密切关注的计算模型。目前,许多重要的链接分析算法都是从PageRank算法中派生出来的。网页排名是谷歌用来衡量网页排名/重要性的方法,也是谷歌用来衡量网站质量的唯一标准。在整合了标题和关键词等所有其他因素后,谷歌通过页面排名调整搜索结果,使那些“排名/重要性”更高的页面在其他搜索结果网站中排名更高,从而提高搜索结果的相关性和质量。它的等级是从0到10,10是满分。公关价值越高,网页就越受欢迎(也越重要)。例如,PR值为1表示该网站不是很受欢迎,而PR值为7到10表示该网站非常受欢迎(或非常重要)。一般的PR4,即使是一个好网站。谷歌将其网站的公关值设为10,这表明谷歌是一个非常受欢迎的网站,也可以说这个网站非常重要。
2.从入站链接到页面排名的计数:
在PageRank被提出之前,一些研究者已经提出利用网页中的链接数量来分析和计算链接。如果一个网页有更多的链接,那么这个网页就更重要了。早期,许多搜索引擎也采用链接数作为链接分析方法,这对提高搜索引擎的效果也起到了很大的作用。PageRank不仅考虑链接数量的影响,还涉及网页的质量。这两种方法的结合使得网页的重要性得到了更好的评价标准。
网页排名计算基于以下两个基本条件:
(1)数量如果:在网络图模型中,如果一个页面节点从其他页面接收到更多的传入链接,那么这个页面更重要。
(2)质量如果链接到页面A的质量不同,高质量的页面将通过链接向其他页面传递许多其他权重。因此,高质量的页面越指向A页面,A页面就越重要。
3.基本概念
(1)脱离链条
如果网页B的超链接B-Link被附加到网页A,用户可以在浏览网页A时点击B-Link,然后进入网页B.以上情况表明,甲与乙相连,表明甲不在乙链上.可以看出,网页a也可以脱离链接C,如果a也附有超链接C-链接的网页C。
(2)进入链条
点击网页a中的B-Link进入B,即a进入B链.如果用户自己在浏览器输入字段中输入网页B的网址,然后输入B,这意味着用户通过输入该网址进入链B
(3)无连锁
如果在网页A中没有附加到其他网页的超链接,这意味着A没有脱离链接
(4)只把链子从你自己身上拿出来
如果网页A中没有附加到其他网页的超链接,而只有它自己的超链接,这意味着A只链接到它自己
(5)公关价值
网页的PR值是网页被访问的概率。公关价值越高,其排名就越高。
4.算法原理
一般来说,网页排名算法[ref _ 3]预先给每个网页一个PR值(在下文中,PR值指的是网页排名值)。由于PR值是网页在物理意义上的访问概率,它通常是1N,其中n是网页的总数。另外,一般来说,所有网页的PR值之和为1。如果不是1,也不是不可能。不同网页之间的大小关系仍然是正确的,但它不能直接反映概率。
在预先给定PR值之后,它通过下面的算法迭代,直到它达到稳定的分布。
互联网上的许多网页可以看作是一个有向图。下图是一个简单的例子[ref _ 4]:
样本1
此时,a的PR值可以表示为:
公关(甲)=公关(乙)公关(丙)
但是,除了C,B和D还有不止一个传出链,所以上面的公式是不准确的。假设一个用户现在正在浏览网页,那么他下一步是打开网页还是打开网页的统计概率应该是一样的。因此,a的PR值应表示为:
公关(甲)=公关(乙)2公关(丙)1
互联网上有些网页并未脱离这一链条,如下所示:
样本1
图中的网页没有外链接,对其他网页没有公关价值。我们不喜欢这个自私的网页(事实上,它是为了满足马尔可夫链的收敛性),所以如果它已经向外链接到所有的网页(包括它自己),在这个图中一个的PR值可以表示为:
公关(甲)=公关(乙)2公关(丙)4
但是,让我们考虑另一种情况:在互联网中,一个网页只链接自己,或者几个网页的链接形成一个圆形。然后,在不断迭代的过程中,一个或几个网页的PR值只会增加或减少,这显然不是合理。下图中的C网页就是刚才说只链接到自身的网页:
样本3
来解决这个问题。让我们想象一个人随意浏览网页。当他到达c网页时,他显然不会一直被c网页的技巧所困扰。我们假设他有一定的概率输入网址并直接跳转到一个随机的网页,跳转到每个网页的概率是相同的。因此,该图中a的PR值可以表示为:
PR(A)=(PR(B)2) (1?)4
在正常情况下,网页的公共关系值计算如下:
PR(pi)=pjMpiPR(pj)L(pj) (1?)氮
其中Mpi是所有链接到pi网页的网页的集合,L(pj)是pj网页中的链接数,n是网页总数,一般为0.85。
根据上面的公式,我们可以计算出每个网页的PR值,最终的结果是当迭代稳定时。