网页搜索引擎排名能做好的数据挖掘一个关键技术是挖掘用户在网上留下的各种足迹,也就是网页说从用户默默贡献的数据中,通过数据挖掘算法和机器学习算法,搜索术福利院免费区观看区200总结出人类留下和积累的引擎智慧,从而获得让人吃惊的排名高质量搜索结果。
看看哪些信息被挖掘和利用了来排序搜索结果。键技
首先,数据挖掘挖掘网页中用来强调的网页可视化信息。网页中各种可视化信息,搜索术也就是引擎网页的作者用来强调重要内容的标识信息,比如,排名标题(title),键技福利院免费区观看区200headline(h1, h2, h3, 等等),数据挖掘bold,网页italy,搜索术underline,ordered list,unordered list,字体颜色变化,字体大小变化,link text,等等,都给基于内容的排序算法提供了强大的支持。设想一篇平淡的文章,如果没有这些可视化的信息,就只能统计词的频率,词出现在文章前面,等等,一些非常有限的启发信息,而这些信息不能足以提供好的排序因素。很多的情况下,是那些作者用心标识的可视化信息,使此网页区别于彼网页。
第二,挖掘一个网页中指向另一个网页的锚文本。锚文本是一个网页的作者用非常简练的词语来概括另一个网页的内容。一个用户在网页中看到了一个锚文本,就能决定是否点击这个锚文本的链接,那么正好就相当于一个用户的搜索词,通过这个搜索词就能找到锚文本所指的网页。另外,锚文本也可能是网页中没有出现的词,这样,通过锚文本搜索出来的网页也提高了搜索的覆盖率。可见,锚文本在搜索中是何等的重要,这是人类在写作时默默的对网页进行标注和总结,搜索引擎正好利用了crowd sourcing,并且挖掘这些知识,来大幅的提高网页搜索的质量。
第三,从链接关系挖掘网页的重要度。著名的PageRank算法,就是利用网页之间的链接关系,采用Random Walk模型来计算每个网页的重要性,从而让所有的网页是可以按重要性来排序。搜索结果中,在搜索词和文本的相关性基本相同时,越是重要的网页就越是应该排在前面。这个重要度信息还可以传递给锚文本,让重要网页贡献的锚文本在搜索排序时贡献更多权重。
第四,搜索结果中的用户点击模型。收集一个搜索词之后的用户点击过的网页和每个网页的大约浏览时间,和是否用户在session中修改搜索词,然后,利用这些记录的信息,用机器学习算法来创建用户的点击预测模型。利用这个模型,能大幅的提高搜索的排名质量,因为前面用户的搜索行为,给后面用户提供了很好的指导。这也是用户在为搜索质量的提高在无私的奉献,而被搜索引擎学习和利用了。
第五,挖掘作弊线索和模式。对于单个页面内容的作弊比较好检测,比如,关键词堆砌,词的分布一般不满足正常的概率分布。对于链接和锚文本的作弊一般要花很大的功夫去检测,常见的有link farm,链接交换,网站镜像,virtual hosting,等等。这些,有的可以查看相互链接的网站是不是共享一个IP,相互链接的网站是否有同样的域名注册信息,相互链接的网站是否有同样的邮件和电话号码,等等,总之就是检测和挖掘出他们有意为之的信号,然后一网打尽。
通过挖掘和学习以上的这些信息,一个搜索引擎的排序结果就会很靠谱了。为什么移动网页搜索,站内搜索引擎,和公司内部搜索引擎的搜索质量很难做好,就是由于它们缺乏上述的很多种内容,特别是链接信息,锚文本信息,和长久积累的用户点击信息。
(责任编辑:百科)