7.4日第四课.搜索引擎的查询服务机制(查询分词技术和结
果排序,动态摘要,缓存机制)
前面讲过了,抓取机制,预处理,这节课以后,会根据每一个细节进行细致讲解。
这节课讲查询服务,也就是我们平时在百度里面查询一些东西,来给出结果,这个
过程对seo来说是非常非常重要的。
上节课讲到了预处理,预处理以后得到了一个网页的表现形式,这个是查询服务的
基础,因为没有预处理好以后,搜索引擎就不知道怎么获取数据
预处理好以后得到的结果:
原始网页库(快照),URL和标题,文档编号,文档关键词集合和关键词的位置信息,
权重标签
一.原始网页库(快照):打开seo三人行的快照,出现:您查询的关键词是:seo
三人行。如果打开速度慢,可以尝试快速版。尝试点击一下快速版,没有图片,
没有css,只有源代码,其实这就是搜索引擎数据库当中存储的你的网页。点击快速
版,就是不去加载图片、css。只是把源代码显示出来。这也表明搜索引擎数据库当
中,只存入源代码,并没有存css、js、图片。(图片有专门的图片搜索引擎,我们
现在讲的不是那个搜索引擎)。这些都是分开的,并没有存我们的别的东西。
二.URL和标题:这个是作为查询结果,当我们搜索seo三人行,就会把URL和标
题显示在那里。
三.文档编号:这个是用来快速获取网页信息的。
四.文档关键词集合和关键词的位置信息:这个文档里面包括了哪些关键词。这些
关键词出现在什么位置,这个位置信息是非常有用的,不知道你们有没有听过邻近
权值(两个关键词相邻的距离有多远)比方说,找seo三人行,那么针对seo三人行
这个词,分词以后一个是seo一个是三人行,中间没有插入任何东西,那么它的邻
近权值是最高的,因为中间间隔的距离是零。如果seo的三人行中间多了一个的,
那么中间的邻近权值就会稍微的低一些,如果中间插了100个字,那么邻近权值就会
非常的低。这个以后会着重的讲。就是说它里面存储了关键词的集合,(在这里说一
下,是为了让你们知道为什么存在关键词的位置信息)。还有它的权重标签(h、b、
strong)
查询的时候查询的库,不是原始网页数据库,查询的是索引库。那么查询词的分词,
我们知道用户的输入都是非常随意的,就像想找seo三人行一样的,他可能忘了这
个名字了,他可能会输入小涵seo的论坛地址是多少可能就会这样的一个很随意的
语句就输入进去了,但是他想找的seo三人行的论坛他记不起来这个名字了,他知
道论坛的管理员叫小涵,他就会这样搜。
也就是说用户的输入是非常随意的,这么随意的一句话,在数据库当中精确匹配是
非常难得,也不可能对这么长的一句话建立索引,每个人每天都有可能输入非常长
的查询语句,都建立索引是完全不现实的。
小涵seo的论坛地址是多少在百度里面回车第一个然后打开快照看到,您查看的关
键词是小涵seo的论坛地址每个词的颜色都不一样,其实这就是分词结果,把
这句话分成了一个这样的结果,这里并没有显示完整。
小涵可以是一个词seo可以是一个词小涵seo也可以是一个词。从这里我们可以
看出来,百度会把用户语句进行分词。一般来说,你如果输入的不是一个严格的词
或者字,搜索引擎都会进行分词。
分词以后做什么呢?需要去获取索引,因为分词以后,需要从数据库当中,把这些
数据取出来。那么这么多的词,搜索引擎会从数据库当中,查询上面包含有这些词
的所有数据。
就像上面那个页面,我们可以看到:
小涵seo是一个词,(我们知道前面在预处理以后,如果小涵seo是一个词的话,在
预处理以后,就会有一个倒排表,那么小涵seo就会有很多的文档包含小涵seo,
并且权重是从高到底排在那里的,)它就会把小涵seo相关的网页,按照相关性、
权重,从高到低取前750个出来。
的这个词是没有什么意义的,这种属于停止词,代表不了这个网页的,那么这个词
是不要的。
论坛和论坛相关的,和小涵seo没有任何关系,把和论坛相关的前n个拿出来
地址把和地址相关的前n个拿出来
然后把:
小涵seo和论坛和地址三个检索词的结果进行交集,也就是三个词取出来的总
共数据当中,哪些页面是同时包含了小涵seo同时包含了论坛同时包含了地址这
三个词,同时包含了这些就留下来,作为备选,就像我们拉选票一样,作为备选的
页面,这部分同时出现所有关键词的页面,作为备选(优先排序的数据)
所以搜索一些比较偏门的关键词的时候,你会发现开始几个里面都是有完整的匹配
的,快照当中都是有完整匹配的,或者是切词以后匹配的,但是后面的基本都没有
了,只有其中的一个。
讲解案例(这个词达不到要的目的)
制砂机轮胎打开第一个快照,这个两个词同时出现,全部都有包含了。这也说明
了一点,你搜索的词在分词以后,必须在网页当中同时出现的。
假如你做了一个网站是seo的,你想把seo三人行获得比较好的排名,或者说一个
网页是做seo的,有seo工具seo教程、seo培训seo论坛很多seo词,但是一个seo三人
行都没有,那你认为搜索seo三人行这个词会不会有排名,这个网站和seo非常相关,
就像夫唯的网站(指的是首页),搜索seo三人行会有排名的吗?不会的,因为需要
网页当中同时出现这些词的分词结果,两个数据有交集的,就是在网页当中同时出
现的这一部分网页,才会作为优先排序的数据。
我们作为seo人员从这一点里面可以看到,如果要做一个关键词的排名,无论如何要
懂得搜索引擎怎么对这个进行分词,从这里可以看出来分词非常重要。
一定要练习用肉眼对一句话怎么进行分词,因为一句话还是很容易分词的,人工对
这一句话进行分词,分词以后,这些词无论用什么形式,但是必须每个在这个页面
当中至少出现一次,就像想获得seo三人行排名,那在网页当中出现大量的seo,
但是一个三人行都没有出现,那是不可能获得seo三人行这个词排名的。
作为seo可以利用的,就是你在做一个网页的时候,你要考虑到你将来会做哪些词。
Seo三人行论坛上面每个一个板块都花了很大的心思,将来论坛权重上来以后,会获
得非常多的排名,之前在搜索小涵seo是找不到这个网站的,因为这个页面只有
偶尔才会在发帖和回帖当中出现小涵、涵哥这个词,然后别的地方出现一个小,才
会匹配成 小 涵 seo。但是前面已经提到了邻近权值 ,间隔太远了,那这个词的权
重非常低,后来在论坛底部加上 小涵 这个词。
权重词的控制:再举一个例子,seo三人行视频教程下载地址是多少,分词以后,这
些查询词每一个都会获取相关网页,权重词的控制这一点里面,首先让大家判断一
下,这些查询词里面哪一个分词结果最不重要?多少最不重要,多少就是一个停止
词,多少这个词代表不了这个网页的主题。
如果想做seo三人行视频教程下载地址是多少这句话的时候,哪怕一个分词的结果,
要把里面不重要的去掉,像 多少、是这样的词是不重要的,这些词完全没有必要去
增加词频,所以搜索引擎会优先获取权重高的重要性高的数据,实在是没有了,才
会选择重要性不高的关键词去获取数据。
多少的什么 切词以后切成 多少 的 什么 每个都是停止词。如果停止词不建立索引
的话,那么搜索是没有结果的,因为现在的搜索引擎都是全文索引,这些词是会有
索引的,当有更重要数据的时候,优选选用重要的,这个是次重要的,其他的都没
有都不重要的时候,(就好像对分词结果有一个权重从高到底的排序,取权重最高的)
像这样3个都是非常低的,那就取一个或者取3个都会去取。
什么词是重要的呢?怎么判断一个词到底是重要的,还是不重要的?针对于这个页
面来说,这个非常重要,将来做网站,做页面优化,网站的首页、栏目页、内容页
通通都是页面优化,全都都是一个页面,都可以想象成一个页面。
大多数的网页中都会出现 的 什么 多少 ,而且 的 是几乎每一个页面都会出现的。
在一个网页中出现越多,但是在所有网页中出现越少的就是重要的。
网页当中出现的多,说明关键词的词频就很高。所以堆砌关键词会获得排名,因为
堆砌关键词,就是网页中出现的次数越多,越重要。而堆砌大量的 的 多少 不会获
得排名,堆砌大量的seo会获得排名,因为 的 多少 这些词不止止是停止词,而且
还在大多数的网页当中出现,所以这些词就不重要。后面会讲到tf-idf的算法
我们怎么判断一个词在多少个网页当中出现呢?百度一下 找到相关结果约 虽然这
是一个估计值,但是可以大概知道这个词在搜索引擎的数据库当中,有多少网页是
相关的。
那么从我们从做seo的角度应该怎么做?我们应该从用户可能搜索的词入手,先要确
定这个页面要做哪些词,做多少个词,准备用哪个页面来做,这些都要想好,因为
准备用这个页面来做这些词的时候,那么这个词将来搜索这个页面的时候就要获得
很高的权重,很高的排名,那么就要对这些进行分词,然后控制重要关键词的权重。
前期网站不要做的太完美,不要把所会的都使用了,避免优化过度,等权重积累起
来以后,再慢慢的调整,调整关键词的权重。
把所有准备用这个页面要做的词,全部列出来,然后进行人工分词,然后在网页当
中精确的出现这些词,或者组合的出现。
所以seo高手说,网站做好以后多次的调整,调整什么,就是调整权重的分配,已经
第一了,就稳在那里了,后面只要不断的调整调整更多的词,获得好的排名,经过
调整一个页面获得几十个词的排名都是可以的。
你想要做的词,可以先做起来的词,就精确出现,比如做减肥,一开始就盯着减肥
来做,是做不起来的。要选择偏一点的,有流量的,竞争不是那么大的,先做这样
的词,后期慢慢调整权重。这就是定位。不一定改标题。
动态摘要:我们在site域名的时候,和查询某个关键词的时候,看到的结果可能是不
一样的。这个是怎么样做到的,搜索引擎是怎么样做到的,分词的结果可以计算出
来权重最高的前几个词,然后根据这几个词在网页源代码当中出现的位置,(我们知
道索引库当中已经存有这些词出现的位置,刚才说的邻近权值)取这些词周边的N
个字符,然后组成一段摘要。
在百度里面site一下.seowhy 出现的摘要:《SEO的中文意思是搜索引擎优
化。通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你的网
站在百度和Google的排名提高,让搜索引擎给你带来客户。深刻...》
在百度里面搜索 seowhy 出现的摘要:《已经意识到SEO的重要性,渴望系统掌握并
与行业精英们深入交流你可以:加入SEOWHY成为VIP会员什么是SEO,SEO是什么
意思? SEO的中文意思是搜索引擎优化。通俗理解是:...》
第二个摘要比第一个摘要多出来一个 seowhy,因为在description里面没有写
seowhy,我们在搜索seowhy的时候,就是调用的动态摘要,获取seowhy周围的字,
然后取出来作为摘要,展现给我们。
查询缓存:查询使用的时间 mysql数据库也是有缓存的。查询一个很怪的词,耗费
的时间可能就要长一些,再刷新以后,时间很快了。搜索引擎要查一个东西,在缓
存当中没有,就要去数据库去提取(所以这个时候耗费的时间长一点),查询以后,
就已经存在了缓存当中了,如果再查,直接从内存当中取出来,所以这个时候不需
要再去查索引了,有利于提高查询速度。
区域搜索:每个不同ip的用户,连接到百度查询服务器是不同的。虽然都是使用同
样的索引库,但是加入区域搜索的查询机制,就是针对不同区域的用户,对排名做
不同的调整,有区域优势。
如果想快速把词做上去:如果你的老板想要在短时间,就要看到一个词的排名,怎
么办?加上区域这个词。
课后问答:
百度快照是不准确的,不会详细的显示的,搜很多词可以发现,快照的分词结果不
一样。因为没有把全部快照的分词结果显示给你。如果把全部分词结果显示给你,
那很多做优化的一眼就看出来了,百度是不会把这些数据给你的。
在论坛下部分,看到 小涵 出现在版权板块,这个算不算是噪音?
答:算
算噪音的话,那还想做小涵 这个词的话,会不会算做噪音,匹配不了小涵seo 了?
答:还有全文索引,权重高了以后都会获得排名。计算当前页面的时候,如果权重
不高的话,只会提取当前页面的重要板块。首页的权重是最高的,你会发现很多的
网站,哪怕在版权信息里面出现一些词,和主关键词搭配起来以后,都会获得很好
的排名的,哪怕出现在友情链接里面都会获得很好的排名的。
目前来说出现在那里的原因是因为,现在只是简单的修改discuz 后台调用站长统计
的地方,加进去 小涵 这个词,所以在每一个页面当中都会出现的,这样子有一个
好处,每一个页面都会有 小涵 这个词,有一个链接指向首页,都会传递一份权重,
而且锚文本是 小涵 。然后将来想真正的把 小涵seo 做起来,那就会在首页的某一
个不是噪音板块的位置,精确的写一个 小涵 seo 可能还要给这个词加粗,现在还
不能做大的改动,因为现在是在版权信息的位置,discuz 一加的话每个页面都出现
了。
当一个站的某个关键词有排名了,然后还想做另外的关键词,那么把之前有排名的
关键词的权重减少的话,会不会掉排名?
答:会。为什么要减少权重呢,除非你的差距和对手已经很大了。如果你和竞争对
手和接近的话,那么降下来是很自然的事情。所以你一定要了解你的竞争对手,你
的对手在这个关键词上面的权重是怎么样的。转移权重不是说把这个词的权重降下
来,而是应该把另外想做的词的权重加上去。
思考题:
搜索引擎为什么要对输入查询语句进行分词处理?
答:首先如果输入的是一个语句的话,那么这个语句是没有建立索引的,所以是没
法查询的。我们都知道查询查的是索引库。
另外 分词是为了找出重要性最高的关键词,分词也是为了能够从索引数据库当中获
得有价值的信息。
对查询语句进行分词的好处是,用同样的分词程序就可以在索引数据库当中查到数
据,而且这样的相关性会更高,会屏蔽掉停止词。
暂无评论内容