教你识别可恶的链接农场,就5条!
链接农场是作弊者精心构建起来的页面链接关系,和正常的链接必然有不同的地方。很多研究通过比较正常网页之间链接关系的统计规律,同时研究链接农场网页之间的链接关系分布规律,通过比较两者之间的差异来识别链接农场。下面的方法涉及到部分算法及名词,对于初级者理解起来可能有些难度,各位看官量力而行。
识别链接农场从以下5条着手:
1、网页出链的统计分布规律,正常网页的出链满足Power-law分布,作弊网页的出链违反Power-law原则。
2、网页入链的统计分布规律,正常网页的入链也满足Power-law分布,作弊网页的出链违反Power-law原则。
3、URL名称统计分布规律,作弊网页的网址倾向于较长,包含更多的点画线和数字等
4、很多作弊网页的URL地址尽管不同,但是常常会对应同一个IP地址。
5、网页特征会随着时间的变化,比如入链的增长率、出链的增长率等,正常的网页和作弊网页在这些变化上是不同的。
除了以上5点的识别链接农场的方法,还可以利用链接农场的结构特征。
链接农场的一个结构特征是农场内的网页之间链接关系非常紧密,这也是可以直接用来进行作弊识别的特征。使用一些紧密链接子图自动发现算法,可以识别出这些紧密链接的页面子图。
有数据表明,这种紧密的链接子图中很大比例确实是由作弊网页构成的。
补充知识:
Power-law原则
幂法则 power law。斯蒂文斯(S.S.Stevens)针对费奇纳(G.T.Fechner)的古典心理物理学倡导一种新的心理物理学,针对前者的对数法则而主张建立幂法则。(来源百度百科)
出链与入链
出链(outbound link),一般用于搜索引擎优化(SEO(网站搜索引挚优化))环境,是指一个网页或网站上的超级链接,与“入链”(inbound link)相对。
事实上,“出链”和“入链”都是通常意义上的链接,即对于同一个链接,对链接所在的网页来说,它是出链,对指向的网页来说,它是入链。(来源百度百科)
上一篇: 网站优化:关于nofollow的用法问题集锦 返 回 下一篇:网站优化:百度眼中具有抓取和收录价值的网站是什么样的(一)