W1 Cybertech

W1

PageRank不是页面级别!你不知道的谷歌搜索引擎PR理论

一个SEO 人员可能不清楚所有的搜索引擎算法和其他链接理论,但不可能不知道 PR ,这是SEO概念的基础中的基础。但无奈的是由于SEO行业的技术依赖于经验积累、严重不对称、门槛低等原因,最近在给客户公司SEO人员做集训的时候发现很多年轻的朋友的基础知识很薄弱,甚至有人不知道PageRank。这边我把关于PageRank所有需要了解的知识整理在这边,方便大家学习阅读。

PR PageRank 的缩写。 Google PR 理论是所有基于链接的搜索引擎理论中最有名的。 PR Google 创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是,反向链接越多的页面就是越重要的页面,因此 PR 值也就越高。 Google PR 有点类似于科技文献中互相引用的概念,被其他文献引用较多的文献,很可能是比较重要的文献。

PR 的概念和计算

我们可以把互联网理解为由结点及链接组成的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性。一个链接传递的 PR 值决定于导入链接所在页面的 PR 值,发出链接的页面本身 PR 值越高,所能传递出去的 PR 也越高。传递的 PR 数值也取决于页面上的导出链接数目。对于给定 PR 值的页面来说,假设能传递到下级页面 100 PR ,页面上有 10 个导出链接,每个链接能传递 10 PR ,页面上有 20 个导出链接的话,每个链接只能传递 5 PR 。所以一个页面的 PR 值取决于导入链接总数,发出链接页面的 PR 值,以及发出链接页面上的导出链接数目。

PR 值计算公式是

PR(A) (1-d) d(PR(t1)/C(t1) PR(tn)/C(tn))

·   A 代表页面 A

·   PR(A) 则代表页面 A PR 值。

·   d 为阻尼指数。通常认为 d 0.85

·   t1…tn 代表链接向页面 A 的页面 t1 tn

·   C 代表页面上的导出链接数目。 C(t1) 即为页面 t1 上的导出链接数目。

从概念及计算公式都可以看到,计算 PR 值必须使用迭代计算。页面 A PR 值取决于链接向 A 的页面 t1 tn 页面的 PR 值,而 t1 tn 页面的 PR 值又取决于其他页面的 PR 值,其中很可能还包含页面 A 。所以 PR 需要多次迭代才能得到。计算时先给所有页面设定一个初始值,经过一定次数的迭代计算后,各个页面的 PR 值将趋于稳定。研究证明,无论初始值怎么选取,经过迭代计算的最终 PR 值不会受到影响。

对阻尼系数做个简要说明。考虑如图所示这样一个循环(实际网络上是一定存在这种循环的)。

 链接构成的循环外部页面 Y 向循环注入 PR 值,循环中的页面不停迭代传递 PR ,如果没有阻尼系数,循环中的页面 PR 将达到无穷大。引入阻尼系数,使 PR 在传递时自然衰减,才能将 PR 计算稳定在一个值上。

PR 的两个比喻模型

关于 PR 有两个著名的比喻。一个比喻是投票。链接就像民主投票一样, A 页面链接到 B 页面,就意味着A 页面对 B 页面投了一票,使得 B 页面的重要性提高。同时, A 页面本身的 PR 值决定了 A 所能投出去的投票力, PR 值越高的页面,投出的票也更重要。在这个意义上,传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接的 PR 则是看别人怎么评价一个页面。第二个比喻是随机冲浪比喻。假设一个访问者从一个页面开始,不停地随机点击链接,访问下一个页面。有时候这个用户感到无聊了,不再点击链接,就随机跳到了另外一个网址,再次开始不停地向下点击。所谓 PR 值,也就是一个页面在这种随机冲浪访问中被访问到的概率。一个页面导入链接越多,被访问到的概率也越高,因此 PR 值也越高。阻尼系数也与随机冲浪模型有关。( 1 d )= 0.15 实际上就是用户感到无聊,停止点击,随机跳到新 URL 的概率。

工具条 PR

真正的用于排名计算的 Google PR 值我们是无法知道的,我们所能看到的只是 Google 工具条 PR 值。需要清楚的是,工具条 PR 值并不是真实 PR 值的精确反映。真实 PR 值是一个准确的、大于 0.15 、没有上限的数字,工具条上显示的 PR 值已经简化为 0 10 11 个数字,是一个整数,也就是说 PR 值最小的近似为 0 ,最大的近似为 10 。实际上每一个工具条 PR 值代表的是很大一个范围,工具条 PR5 代表的页面真实 PR 值可能相差很多倍。真正的 PR 值是不间断计算更新中的,工具条 PR 值只是某一个时间点上真实 PR 值的快照输出。工具条 PR 几个月才更新一次,

最近一年 Google 工具条 PR 更新日期工具条 PR 与反向链接数目呈对数关系,而不是线性关系。也就是说如果从 PR1 PR2 需要的外部链接是 100 个,从 PR2 PR3 则需要大致 1000 个, PR5 PR6 需要的外部链接则更多。所以 PR 值越高的网站想提升一级所要付出的时间和努力比 PR 值比较低的网站提升一级要多得多。

关于 PR 的几个误解

PR 的英文全称是 PageRank 。这个名称来源于发明人佩奇( Page )的名字,巧合的是 Page 在英文中也是页面的意思。所以准确地说 PageRank 这个名字应该翻译为佩奇级别,而不是页面级别。不过约定俗成,再加上巧妙的一语双关,大家都把 PR 称为页面级别。 PR 值只与链接有关。经常有站长询问,他的网站做了挺长时间,内容也全是原创的,怎么 PR 还是零呢?其实 PR 与站长是否认真、做站多长时间、内容是否原创都没有直接关系。有反向链接就有 PR ,没有反向链接就没有 PR 。一个高质量的原创网站,一般来说自然会吸引到比较多的外部链接,所以会间接提高 PR 值,但这并不是必然的。

工具条 PR 值更新与页面排名变化在时间上没有对应关系。在工具条 PR 值更新过程中,经常有站长说 PR 值提高了,难怪网站排名也提高了。可以肯定地说这只是时间上的巧合而已。前面说过,真实的用于排名计算的 PR 是连续计算更新的,随时计入排名算法。我们看到的工具条 PR 几个月才更新一次。当我们看到有 PR 更新时,真实的 PR 早在几个月之前就更新和计入排名里了。所以,通过工具条 PR 变化,研究PR 值与排名变化之间的关系是没有意义的。

PR 的意义

Google 工程师说过很多次, Google PR 现在已经是一个被过度宣传的概念,其实 PR 只是 Google 排名算法的 200 多个因素之一,而且重要性已经下降很多, SEO 人员完全不必太执着于 PR 值的提高。当然, PR 还是 Google 排名算法中的重要因素之一。除了直接影响排名, PR 的重要性还体现在下面几点。( 1 )网站收录深度和总页面数。搜索引擎蜘蛛爬行时间及数据库的空间都是有限的。 Google 希望尽量优先收录重要性高的页面,所以 PR 值越高的网站就能被收录更多页面,蜘蛛爬行内页的深度也更高。对大中型网站来说,首页 PR 值是带动网站收录的重要因素之一。( 2 )更新频率。 PR 值越高的网站,搜索引擎蜘蛛访问得就越频繁,网站上出现新页面或旧页面上内容更新时,都能更快速地被收录。由于网站新页面通常都会在现有页面上出现链接,因此更新频率高也就意味着被发现的速度快。( 3 )重复内容判定。当 Google 在不同网站上发现完全相同的内容时,会选出一个作为原创,其他作为转载或抄袭。用户搜索相关关键词时,被判断为原创的那个版本会排在前面。而判断哪个版本为原创时, PR 值也是重要因素之一。这也就是为什么那些权重高、 PR 值高的大网站,转载小网站内容却经常被当做原创的原因。( 4 )排名初始子集的选择。前面介绍排名过程时提到,搜索引擎挑选出所有与关键词匹配的文件后,不可能对所有文件进行相关性计算,因为返回的文件可能有几百万、几千万,搜索引擎需要从中挑选出一个初始子集,再做相关性计算。初始子集的选择显然与关键词相关度无关,而只能从页面的重要程度着手, PR 值就是与关键词无关的重要度指标。

现在的 PR 算法与当初拉里佩奇专利中的描述相比肯定有了改进和变化。一个可以观察到的现象是, PR 算法应该已经排除了一部分 Google 认为可疑或者无效的链接,比如付费链接、博客和论坛中的垃圾链接等。所以有时候我们会看到一个页面有 PR6 甚至 PR7 的导入链接,经过几次工具条 PR 更新后,却还维持在 PR3 甚至 PR2 。按说一个 PR6 7 的链接,应该把被链接的页面带到 PR5 PR4 ,所以很可能Google 已经把一部分它认为可疑的链接排除在 PR 计算之外。 PR 专利发明人是拉里佩奇,专利所有人是斯坦福大学, Google 公司拥有永久性排他使用权。虽然 PR Google 拥有专利使用权的算法,但其他所有主流搜索引擎也都有类似算法,只不过不称为 PR 而已。

W1提供专业的技术型SEO服务,包括SEO相关技术咨询及培训,欢迎联系我们了解详情。

Scroll to Top