首页资讯动态 建站百科

搜索引擎是如何判断网站文章重复度的?
时间:2020-05-15 阅读:65次 来源:网站重复检测
  在这个科学技术高度发展的时代,搜索引擎百度已成为人们获取新闻资讯的主要途径。但是现在百度充斥着重复性的内容,给用户的访问带来了很大的麻烦。因此,百度需要对网页重复进行判断,对重复的网页,只选取一些高质量的我那工业,共用户浏览。然而,现有技术中一般是通过比较两个页面的内容和借点,来确认两个页面的相似度。
搜索引擎是如何判断网站文章重复度的?
   该方法可以更精确地计算,但是时间复杂度太高,并且计算非常耗时。通过在一页上签名一些重要信息,然后比较两页的签名,可以计算相似度。该方法相对简单高效,计算速度较快。

   1、网站上重复内容的判断


   A,获取多个网页;

   B,分别提取该网页的网页文字;

   C,从所述网页的主体中提取一个或多个句子,并基于所述一个或多个句子计算所述网页的主体的句子签名;

   D,根据网页文本的句子签名对多个网页进行聚类;

   E,对于每种类型的网页,计算该网页的附加签名;

   F.根据所附签名,判断每个类别下的网页是否重复。

   通过上述方式,网页复制判断系统及其判断方法可以通过包括网页正文语句签名在内的多维签名,快速,有效地判断网页是否被复制。

   2、网页基本架构图


   提取文字

   A,屏蔽网页;

   B,对过滤后的网页进行块过滤,以快速获取包含该网页正文的内容;

   C,从内容块中提取网页正文。

        正文分句

   A,对网页正文进行分句;

   在此步骤中,您可以使用分号,句号,感叹号和其他指示句子结尾的符号来分割网页正文。另外,还可以通过网页文本的视觉信息来判别网页文本。

   B.过滤并转换该条款后面的网页文本;

   在步骤中,首先过滤掉句子中的数字信息;版权信息和其他对网页的反复判断没有决定性作用的信息。随后,对句子进行转换,例如,全角/半角转换或传统/简化转换,从而使转换后的句子的格式统一。

   C,从经过过滤和转换的网页文本中提取最长的句子;

   在此步骤中,经过过滤和转换的网页文本将提取最长的句子或预定数量的连续句子的组合。例如,在一个网页实例中,经过过滤和转换后的某个片段是最长的,远远超过其他句子,因此可以将该片段选择为网页句子,或者可以选择最长的连续句子组合作为网页句子。

  D.对一个或多个句子执行哈希签名操作以获得网页主体的句子签名。

   simhash算法比较网页的其他签名,以确定它们是否重复。具体地,当比较使用simhash签名操作获得的网页正文签名时,比较网页正文签名的不同位数。不同的位数越少,网页复制的可能性就越高。在比较其他附加签名时,如果附加签名相等,则表示在该纬度下重复网页。

   总结一下:


   1.两个网页的真实标题签名相同。

   2.我所在行业的两个网页的内容签名是相同的。

   3.两页正文签名的不同位数小于6。

   4.这两个网页具有相同的网页位置签名和相同的url文件名签名。

   5.注释块签名中有三个签名,资源签名,标签标题签名,抽象签名和url文件名签名。

   附加信息整站判断重复标准:


   通过比较两个或两个页面,您可以获得真正重复的URL的集合。一般而言,如果这组真实的重复URL中的网页数/整个网页集中的网页数大于30%,则认为整个网页集是真实的重复,否则为错误的重复。
联系我们
工作时间
周一至周六 08:30-18:00
我们的地址
深圳市龙华新区龙华街道和平东路金銮时代大厦8001
点击按钮在线咨询
在线客服 在线客服 在线客服

© Copyright 2016-2019 深圳蚂蚁网络.All Rights Reserved. sitemap1  sitemap2  sitemap3  粤ICP备17017147号-2

网站地图