什么是SEO
搜索引擎工作原理
预处理:就像我们在整理文件时候要进行整理一样,搜索引擎在获取到了大量的内容之后,要对杂乱的内容进行预处理。
排名:根据一定的规则,将这么多规整好的内容进行排名处理。
爬行和抓取:
提到对互联网内容的爬行和抓取,就得提到蜘蛛(侠)Spider(man)。
蜘蛛是搜索引擎用来爬行和访问页面的程序,他就想真实世界的蜘蛛一样,在互联网这张大网上面不断的爬行,当爬到一个网站的时候,就会把网站的内容记录下来,这样搜索引擎就会收录下来,其他用户通过搜索引擎就可以搜索到这个网站了。
搜索引擎收录网站内容的过程中,其实含有更复杂的逻辑,这里就不做衍生了。另外关于反爬,一版之主爬行网站的时候会优先访问根目录下的robots.txt,如果该文件禁止搜索引擎抓取某些文件或目录,则蜘蛛将不进行抓取被禁止的网站。
接下来我们将网络爬虫的抓取策略:
广度优先遍历策略:广度优先策略是按照树的层级进行搜索,如果此层没有搜索完成,不会进入下一层搜索。也就是说会首先完成一个层级的搜索,其次进行下一层级的搜索,我们也可以理解为分层处理。再或者说,就是优先遍历种子页面的所有二级页面,遍历完二级页面后,在遍历所有的三级页面,如下图:
如何吸引蜘蛛
俗话讲,有人的地方就有江湖,互联网也是如此,一些老牌网站,由于网站建设时间长,有一定的江湖地位,所以蜘蛛会优先对这些网站进行爬取。
提高页面内容质量
人们都喜欢新鲜事物,蜘蛛也不例外,蜘蛛对新的内容爬取优先级非常高,如果你的网站持续有原创的新鲜内容,蜘蛛会非常喜欢光顾你的网站,但如果蜘蛛每次来到你的网站,发现都是一些转载或者抄袭的内容,它就会认为你的网站没有创造新内容的能力,甚至会再也不造访你的网站。
持续对网站进行更新
蜘蛛喜欢勤劳的小蜜蜂,如果网站持续更新,那么蜘蛛将有可能定时对该网站进行爬取。
找知名网站引入友链
前面提到,知名网站蜘蛛会优先进行爬取,而蜘蛛爬取的逻辑是顺着链接不断爬行,所以我们可以找一些已经成熟的网站,让他们帮忙引入一条我们自己网站的链接,蜘蛛就可以顺着这条链接爬到我们的网站。
本文来自 王得宇AIPM 投稿,不代表 PmTemple 立场,如若转载,请注明出处:
。如有涉及侵权行为,请发送相关证明材料至邮箱admin@pmtemple.com