贝特威继续分享Google官方文档,今天分享的是Google搜索三个阶段的第一个阶段:抓取。
抓取分为以下几个过程:
- 发现网页:第一阶段是找出网络上存在哪些网页。不存在包含所有网页的中央注册表,因此 Google 必须不断搜索新网页和更新过的网页,并将其添加到已知网页列表中。
- 抓取网页:Google 发现网页的网址后,可能会访问(或“抓取”)该网页以了解其中的内容。执行抓取任务的程序叫做 Googlebot(也称为抓取工具、漫游器或“蜘蛛”程序)。Googlebot 使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。并不是所有内容都适合被抓取,通过robots.txt 确定抓取规则。
在网页抓取的过程中,网站要具备以下功能:
确保网站能一直处于:稳定,能快速访问的状态。
试想一下,如果网站经常因为宕机出现无法访问的情况,那么被Google发现就是一个不确定的事情,如果在Google发现的那一刻,网站处于宕机状态,应该没有比这更糟糕的了。
网站重启,再次上线了,Google也发现了网站,Google的蜘蛛程序开始抓取你的网站,又宕机了,又一次出现糟糕的情况了。
网站再次重启上线,Google的抓取蜘蛛开始抓取网站内容,因为Google的蜘蛛会按照一定的频率抓取网站内容,这种会给网站主机带来一定的压力,然后没抓取多久,网站再次宕机下线。
所以,在建设网站之处,请一定要在域名,网站主机,网站维护和主机运维上做足功夫,这些都是基础且必要的投入,也是网站上线运行的基础,如果这些基础都无法保证,那长久的运营网站只能是天方夜谭了。