搜索引擎技术的三个核心问题
发布日期:2020-03-23 08:25 来源:http://www.cscn3000.com 点击:
虽然,搜索引擎的技术并不是我们SEOer应该考虑的事情,但我们还是应该了解一下,他们到底在研究哪些问题。今天,带来的是《搜索引擎技术的三个核心问题》。希望对大家有所帮助。
一、搜索引擎相关性技术
① 相关性概念
搜索引擎要准确地判断用户查询词与页面的相关性,按相关性强弱完成页面集合的初步筛选和排序。
② 相关性分类
1)查询词相关性
搜索引擎首先要判断用户查询词的语义,因为同一个词在不同的场景下,可以代表不同的意思,只有正确判断语义后,才能更好地去匹配相关性强的页面。如果判断错误,那么就可能造成搜索结果页面全完不是用户所需的内容,这样会大大降低用户的搜索体验。
例如,用户搜索“苹果”,搜索引擎给出的都是iPhone的结果,但那个用户可能真的只想搜索普通的苹果。
当然,搜索引擎结果中大部分都显示iPhone是正常的,因为大部分用户去搜索“苹果”这个词的时候,其语义也是iPhone。当然,也会显示一些真正的苹果的结果页面。
2)用户相关性
某个用户看到过哪篇文章,哪个网站,则这个用户在此搜索某个词时,这篇文章和这个网站会有不一样的排名。
某个用户是某个领域的专家,或者说经常关注这方面的爱好者,当他搜索这个领域的某些词时,他可能会对多次进入的网站的排名产生积极的作用。
当然,这些用户相关性可能就是SEO中常说的个性化搜索或个人化搜索。
③ 检索模型
为了检索页面与用户搜索词的相关性,搜索引擎研究人员提出了各种检索模式,其中最为广泛使用的为“TF-IDF”
TF-IDF的核心概念是一定程度上增加TF(关键词频率或密度)和IDF(关键词的反文档频率)的值,最终得到的两者成绩就是判断页面相关性的值。
简单来讲,增加关键词频率或密度,同时寻找一些百度相关搜索结果数小的词。
二、搜索引擎评价技术
搜索引擎评价体系非常重要,相关性的研究仅仅是最初的筛选和排序,但是否是用户真正期望的,还需要通过评价体系来完成。
① 用户点击生成的日志数据
搜索引擎可以将用户点击的数据在后台记录下来,生成大量的日志数据,再利用这些数据对搜索引擎进行评价。
② 搜索引擎评价方法
其中一种为Cyril Cleverdon的评价方法。
评价中有两种指标:
1)准确率
准确率,是指检索出来的文档中相关文档所占比例。
2)召回率
召回率,是指全部文档中中被检测出来的文档比例。
三、搜索引擎用户搜索体验技术
搜索引擎是面向用户的,用户搜索体验是评价搜索引擎好坏的最重要因素之一,这也是目前搜索引擎为什么非常重视用户搜索体验的因素。
搜索引擎通过数据可以分析出哪些页面或网站的用户搜索体验好,则将提升其排名或整站权重,对于哪些不好的,则会降低排名或整站权重。
这就好比,我们优化网站,点展比高、PV远大于UV等数据,证明了我们网站的用户体验度比较好,搜索引擎也会给予这样的网站更好的排名。