搜索引擎的查询服务机制(查询分词技术和结果排序,动态摘要,缓存机制).doc

7.4日第四课.搜索引擎的查询服务机制(查询分词技术和结

果排序,动态摘要,缓存机制)

前面讲过了,抓取机制,预处理,这节课以后,会根据每一个细节进行细致讲解。

这节课讲查询服务,也就是我们平时在百度里面查询一些东西,来给出结果,这个

过程对seo来说是非常非常重要的。

上节课讲到了预处理,预处理以后得到了一个网页的表现形式,这个是查询服务的

基础,因为没有预处理好以后,搜索引擎就不知道怎么获取数据

预处理好以后得到的结果:

原始网页库(快照),URL和标题,文档编号,文档关键词集合和关键词的位置信息,

权重标签

一.原始网页库(快照):打开seo三人行的快照,出现:您查询的关键词是:seo

三人行。如果打开速度慢,可以尝试快速版。尝试点击一下快速版,没有图片,

没有css,只有源代码,其实这就是搜索引擎数据库当中存储的你的网页。点击快速

版,就是不去加载图片、css。只是把源代码显示出来。这也表明搜索引擎数据库当

中,只存入源代码,并没有存css、js、图片。(图片有专门的图片搜索引擎,我们

现在讲的不是那个搜索引擎)。这些都是分开的,并没有存我们的别的东西。

二.URL和标题:这个是作为查询结果,当我们搜索seo三人行,就会把URL和标

题显示在那里。

三.文档编号:这个是用来快速获取网页信息的。

四.文档关键词集合和关键词的位置信息:这个文档里面包括了哪些关键词。这些

关键词出现在什么位置,这个位置信息是非常有用的,不知道你们有没有听过邻近

权值(两个关键词相邻的距离有多远)比方说,找seo三人行,那么针对seo三人行

这个词,分词以后一个是seo一个是三人行,中间没有插入任何东西,那么它的邻

近权值是最高的,因为中间间隔的距离是零。如果seo的三人行中间多了一个的,

那么中间的邻近权值就会稍微的低一些,如果中间插了100个字,那么邻近权值就会

非常的低。这个以后会着重的讲。就是说它里面存储了关键词的集合,(在这里说一

下,是为了让你们知道为什么存在关键词的位置信息)。还有它的权重标签(h、b、

strong)

查询的时候查询的库,不是原始网页数据库,查询的是索引库。那么查询词的分词,

我们知道用户的输入都是非常随意的,就像想找seo三人行一样的,他可能忘了这

个名字了,他可能会输入小涵seo的论坛地址是多少可能就会这样的一个很随意的

语句就输入进去了,但是他想找的seo三人行的论坛他记不起来这个名字了,他知

道论坛的管理员叫小涵,他就会这样搜。

也就是说用户的输入是非常随意的,这么随意的一句话,在数据库当中精确匹配是

非常难得,也不可能对这么长的一句话建立索引,每个人每天都有可能输入非常长

的查询语句,都建立索引是完全不现实的。

小涵seo的论坛地址是多少在百度里面回车第一个然后打开快照看到,您查看的关

键词是小涵seo的论坛地址每个词的颜色都不一样,其实这就是分词结果,把

这句话分成了一个这样的结果,这里并没有显示完整。

小涵可以是一个词seo可以是一个词小涵seo也可以是一个词。从这里我们可以

看出来,百度会把用户语句进行分词。一般来说,你如果输入的不是一个严格的词

或者字,搜索引擎都会进行分词。

分词以后做什么呢?需要去获取索引,因为分词以后,需要从数据库当中,把这些

数据取出来。那么这么多的词,搜索引擎会从数据库当中,查询上面包含有这些词

的所有数据。

就像上面那个页面,我们可以看到:

小涵seo是一个词,(我们知道前面在预处理以后,如果小涵seo是一个词的话,在

预处理以后,就会有一个倒排表,那么小涵seo就会有很多的文档包含小涵seo,

并且权重是从高到底排在那里的,)它就会把小涵seo相关的网页,按照相关性、

权重,从高到低取前750个出来。

的这个词是没有什么意义的,这种属于停止词,代表不了这个网页的,那么这个词

是不要的。

论坛和论坛相关的,和小涵seo没有任何关系,把和论坛相关的前n个拿出来

地址把和地址相关的前n个拿出来

然后把:

小涵seo和论坛和地址三个检索词的结果进行交集,也就是三个词取出来的总

共数据当中,哪些页面是同时包含了小涵seo同时包含了论坛同时包含了地址这

三个词,同时包含了这些就留下来,作为备选,就像我们拉选票一样,作为备选的

页面,这部分同时出现所有关键词的页面,作为备选(优先排序的数据)

所以搜索一些比较偏门的关键词的时候,你会发现开始几个里面都是有完整的匹配

的,快照当中都是有完整匹配的,或者是切词以后匹配的,但是后面的基本都没有

了,只有其中的一个。

讲解案例(这个词达不到要的目的)

制砂机轮胎打开第一个快照,这个两个词同时出现,全部都有包含了。这也说明

了一点,你搜索的词在分词以后,必须在网页当中同时出现的。

假如你做了一个网站是seo的,你想把seo三人行获得比较好的排名,或者说一个

网页是做seo的,有seo工具seo教程、seo培训seo论坛很多seo词,但是一个seo三人

行都没有,那你认为搜索seo三人行这个词会不会有排名,这个网站和seo非常相关,

就像夫唯的网站(指的是首页),搜索seo三人行会有排名的吗?不会的,因为需要

网页当中同时出现这些词的分词结果,两个数据有交集的,就是在网页当中同时出

现的这一部分网页,才会作为优先排序的数据。

我们作为seo人员从这一点里面可以看到,如果要做一个关键词的排名,无论如何要

懂得搜索引擎怎么对这个进行分词,从这里可以看出来分词非常重要。

一定要练习用肉眼对一句话怎么进行分词,因为一句话还是很容易分词的,人工对

这一句话进行分词,分词以后,这些词无论用什么形式,但是必须每个在这个页面

当中至少出现一次,就像想获得seo三人行排名,那在网页当中出现大量的seo,

但是一个三人行都没有出现,那是不可能获得seo三人行这个词排名的。

作为seo可以利用的,就是你在做一个网页的时候,你要考虑到你将来会做哪些词。

Seo三人行论坛上面每个一个板块都花了很大的心思,将来论坛权重上来以后,会获

得非常多的排名,之前在搜索小涵seo是找不到这个网站的,因为这个页面只有

偶尔才会在发帖和回帖当中出现小涵、涵哥这个词,然后别的地方出现一个小,才

会匹配成 小 涵 seo。但是前面已经提到了邻近权值 ,间隔太远了,那这个词的权

重非常低,后来在论坛底部加上 小涵 这个词。

权重词的控制:再举一个例子,seo三人行视频教程下载地址是多少,分词以后,这

些查询词每一个都会获取相关网页,权重词的控制这一点里面,首先让大家判断一

下,这些查询词里面哪一个分词结果最不重要?多少最不重要,多少就是一个停止

词,多少这个词代表不了这个网页的主题。

如果想做seo三人行视频教程下载地址是多少这句话的时候,哪怕一个分词的结果,

要把里面不重要的去掉,像 多少、是这样的词是不重要的,这些词完全没有必要去

增加词频,所以搜索引擎会优先获取权重高的重要性高的数据,实在是没有了,才

会选择重要性不高的关键词去获取数据。

多少的什么 切词以后切成 多少 的 什么 每个都是停止词。如果停止词不建立索引

的话,那么搜索是没有结果的,因为现在的搜索引擎都是全文索引,这些词是会有

索引的,当有更重要数据的时候,优选选用重要的,这个是次重要的,其他的都没

有都不重要的时候,(就好像对分词结果有一个权重从高到底的排序,取权重最高的)

像这样3个都是非常低的,那就取一个或者取3个都会去取。

什么词是重要的呢?怎么判断一个词到底是重要的,还是不重要的?针对于这个页

面来说,这个非常重要,将来做网站,做页面优化,网站的首页、栏目页、内容页

通通都是页面优化,全都都是一个页面,都可以想象成一个页面。

大多数的网页中都会出现 的 什么 多少 ,而且 的 是几乎每一个页面都会出现的。

在一个网页中出现越多,但是在所有网页中出现越少的就是重要的。

网页当中出现的多,说明关键词的词频就很高。所以堆砌关键词会获得排名,因为

堆砌关键词,就是网页中出现的次数越多,越重要。而堆砌大量的 的 多少 不会获

得排名,堆砌大量的seo会获得排名,因为 的 多少 这些词不止止是停止词,而且

还在大多数的网页当中出现,所以这些词就不重要。后面会讲到tf-idf的算法

我们怎么判断一个词在多少个网页当中出现呢?百度一下 找到相关结果约 虽然这

是一个估计值,但是可以大概知道这个词在搜索引擎的数据库当中,有多少网页是

相关的。

那么从我们从做seo的角度应该怎么做?我们应该从用户可能搜索的词入手,先要确

定这个页面要做哪些词,做多少个词,准备用哪个页面来做,这些都要想好,因为

准备用这个页面来做这些词的时候,那么这个词将来搜索这个页面的时候就要获得

很高的权重,很高的排名,那么就要对这些进行分词,然后控制重要关键词的权重。

前期网站不要做的太完美,不要把所会的都使用了,避免优化过度,等权重积累起

来以后,再慢慢的调整,调整关键词的权重。

把所有准备用这个页面要做的词,全部列出来,然后进行人工分词,然后在网页当

中精确的出现这些词,或者组合的出现。

所以seo高手说,网站做好以后多次的调整,调整什么,就是调整权重的分配,已经

第一了,就稳在那里了,后面只要不断的调整调整更多的词,获得好的排名,经过

调整一个页面获得几十个词的排名都是可以的。

你想要做的词,可以先做起来的词,就精确出现,比如做减肥,一开始就盯着减肥

来做,是做不起来的。要选择偏一点的,有流量的,竞争不是那么大的,先做这样

的词,后期慢慢调整权重。这就是定位。不一定改标题。

动态摘要:我们在site域名的时候,和查询某个关键词的时候,看到的结果可能是不

一样的。这个是怎么样做到的,搜索引擎是怎么样做到的,分词的结果可以计算出

来权重最高的前几个词,然后根据这几个词在网页源代码当中出现的位置,(我们知

道索引库当中已经存有这些词出现的位置,刚才说的邻近权值)取这些词周边的N

个字符,然后组成一段摘要。

在百度里面site一下.seowhy 出现的摘要:《SEO的中文意思是搜索引擎优

化。通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你的网

站在百度和Google的排名提高,让搜索引擎给你带来客户。深刻...》

在百度里面搜索 seowhy 出现的摘要:《已经意识到SEO的重要性,渴望系统掌握并

与行业精英们深入交流你可以:加入SEOWHY成为VIP会员什么是SEO,SEO是什么

意思? SEO的中文意思是搜索引擎优化。通俗理解是:...》

第二个摘要比第一个摘要多出来一个 seowhy,因为在description里面没有写

seowhy,我们在搜索seowhy的时候,就是调用的动态摘要,获取seowhy周围的字,

然后取出来作为摘要,展现给我们。

查询缓存:查询使用的时间 mysql数据库也是有缓存的。查询一个很怪的词,耗费

的时间可能就要长一些,再刷新以后,时间很快了。搜索引擎要查一个东西,在缓

存当中没有,就要去数据库去提取(所以这个时候耗费的时间长一点),查询以后,

就已经存在了缓存当中了,如果再查,直接从内存当中取出来,所以这个时候不需

要再去查索引了,有利于提高查询速度。

区域搜索:每个不同ip的用户,连接到百度查询服务器是不同的。虽然都是使用同

样的索引库,但是加入区域搜索的查询机制,就是针对不同区域的用户,对排名做

不同的调整,有区域优势。

如果想快速把词做上去:如果你的老板想要在短时间,就要看到一个词的排名,怎

么办?加上区域这个词。

课后问答:

百度快照是不准确的,不会详细的显示的,搜很多词可以发现,快照的分词结果不

一样。因为没有把全部快照的分词结果显示给你。如果把全部分词结果显示给你,

那很多做优化的一眼就看出来了,百度是不会把这些数据给你的。

在论坛下部分,看到 小涵 出现在版权板块,这个算不算是噪音?

答:算

算噪音的话,那还想做小涵 这个词的话,会不会算做噪音,匹配不了小涵seo 了?

答:还有全文索引,权重高了以后都会获得排名。计算当前页面的时候,如果权重

不高的话,只会提取当前页面的重要板块。首页的权重是最高的,你会发现很多的

网站,哪怕在版权信息里面出现一些词,和主关键词搭配起来以后,都会获得很好

的排名的,哪怕出现在友情链接里面都会获得很好的排名的。

目前来说出现在那里的原因是因为,现在只是简单的修改discuz 后台调用站长统计

的地方,加进去 小涵 这个词,所以在每一个页面当中都会出现的,这样子有一个

好处,每一个页面都会有 小涵 这个词,有一个链接指向首页,都会传递一份权重,

而且锚文本是 小涵 。然后将来想真正的把 小涵seo 做起来,那就会在首页的某一

个不是噪音板块的位置,精确的写一个 小涵 seo 可能还要给这个词加粗,现在还

不能做大的改动,因为现在是在版权信息的位置,discuz 一加的话每个页面都出现

了。

当一个站的某个关键词有排名了,然后还想做另外的关键词,那么把之前有排名的

关键词的权重减少的话,会不会掉排名?

答:会。为什么要减少权重呢,除非你的差距和对手已经很大了。如果你和竞争对

手和接近的话,那么降下来是很自然的事情。所以你一定要了解你的竞争对手,你

的对手在这个关键词上面的权重是怎么样的。转移权重不是说把这个词的权重降下

来,而是应该把另外想做的词的权重加上去。

思考题:

搜索引擎为什么要对输入查询语句进行分词处理?

答:首先如果输入的是一个语句的话,那么这个语句是没有建立索引的,所以是没

法查询的。我们都知道查询查的是索引库。

另外 分词是为了找出重要性最高的关键词,分词也是为了能够从索引数据库当中获

得有价值的信息。

对查询语句进行分词的好处是,用同样的分词程序就可以在索引数据库当中查到数

据,而且这样的相关性会更高,会屏蔽掉停止词。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容