SEO优化—搜索引擎工作原理

古语云：知己知彼，百战不殆。对于想做SEO优化的产品经理而言，了解搜索引擎的工作原理，也就成为了核心。

什么是SEO

搜索引擎优化，又称为SEO，即Search Engine Optimization，它是一种通过分析搜索引擎的排名规律，了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。搜索引擎采用易于被搜索引用的手段，对网站进行有针对性的优化，提高网站在搜索引擎中的自然排名，吸引更多的用户访问网站，提高网站的访问量，提高网站的销售能力和宣传能力，从而提升网站的品牌效应。换句话说，用户在搜索引擎（例如百度）中搜索某个与你网站内容相关的关键词时，SEO可以让你的网站排名更加靠前，可以为你的网站带来源源不断的流量，为你带来更多的用户。

搜索引擎工作原理

搜索引擎工作的原理简单分为三部分，分别是爬行和抓取、预处理、排名。爬行和抓取：爬行和抓取是搜索引擎工具获得内容的基础，搜索引擎本身不生产内容，搜索引擎只不过是内容（大自然）的搬运工。

预处理：就像我们在整理文件时候要进行整理一样，搜索引擎在获取到了大量的内容之后，要对杂乱的内容进行预处理。

排名：根据一定的规则，将这么多规整好的内容进行排名处理。

爬行和抓取：

提到对互联网内容的爬行和抓取，就得提到蜘蛛（侠）Spider（man）。

蜘蛛是搜索引擎用来爬行和访问页面的程序，他就想真实世界的蜘蛛一样，在互联网这张大网上面不断的爬行，当爬到一个网站的时候，就会把网站的内容记录下来，这样搜索引擎就会收录下来，其他用户通过搜索引擎就可以搜索到这个网站了。

搜索引擎收录网站内容的过程中，其实含有更复杂的逻辑，这里就不做衍生了。另外关于反爬，一版之主爬行网站的时候会优先访问根目录下的robots.txt，如果该文件禁止搜索引擎抓取某些文件或目录，则蜘蛛将不进行抓取被禁止的网站。

接下来我们将网络爬虫的抓取策略：

广度优先遍历策略：广度优先策略是按照树的层级进行搜索，如果此层没有搜索完成，不会进入下一层搜索。也就是说会首先完成一个层级的搜索，其次进行下一层级的搜索，我们也可以理解为分层处理。再或者说，就是优先遍历种子页面的所有二级页面，遍历完二级页面后，在遍历所有的三级页面，如下图：

深度优先遍历策略：深度优先遍历策略是指网络爬虫会从其起始页开始，一个链接一个链接跟踪下去，处理完这条线路的链接之后，再转入下一个起始页，继续跟踪链接。换言之，就是优先遍历种子页面某一个二级页面之后的所有分支，当蜘蛛爬到该分支的最低端，没有新链接供蜘蛛继续爬行后，则蜘蛛返回种子页面，爬取另外一个二级页面下面的分支。如下图：