查看: 4|回复: 0

一个笑话站的成长经历(六)

[复制链接]

主题

帖子

5

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
5
发表于 2024-9-29 20:07:08 | 显示全部楼层 |阅读模式
书接上文,网站上线的第二天,也就是12月20日下午5点,百度的爬虫就过来了,注意这个时候我没有在互联网上提交任何关于网站的信息。
     
   
    谷歌的爬虫稍微晚一点,在21日的中午1点钟。
     
   
    此时我并没有提交任何信息,但他们的爬虫还是来,弄的我措手不及,这个时候我的域名非www的301跳转还没有做,url静态转发也没有做,所以造成了现在百度site的时候会出现不带www的域名,这样的话会分担我主域名的权重。但没有办法。
    反思百度和谷歌新站的发现机制,可能有根据备案信息抓取这一条。我的站是在上线前完成备案的,备案提一下,需要当场照相的那几个省份的,就不要备了,太慢了,而且审核很严,我一个朋友北京备案,花了20天+20天又+20天都没备案下来。
    还有一个建议就是在网站上线时,要把所有的准备工作做好,比如关键字、url规划。不然可就得不偿失了。
    其他的搜索引擎,是在提交网站入口之后2-3天派爬虫过来的,一并发出来纪念一下。
    搜狗
   
    搜搜
   
    有道
   
    雅虎
   
    主流的搜索引擎都来过了,咱们的流量80%都来自这些搜索引起,爬虫过来了,就要好好款待。
    就百度、谷歌、雅虎的爬虫爬行规律上看。可以确定,有多个分工明确的爬虫,有新站发现爬虫、robots探测爬虫、判断是否需要抓取爬虫、抓取内容爬虫。
    对新站收录比较重要的有,robots探测和是否需要抓取爬虫。
    对新站权重比较重要的有,判断是否需要抓取和内容抓取爬虫。
    比如抓取内容爬虫,是根据上级爬虫分析出的连接进行爬取,一定不要出现类似500的错误,还有一个就是网站访问速度。下图红框里面的数字,单位是微秒。
     
   
    新站的爬虫访问规律很值得研究,有机会我会在作为一个专题在A5与大家分享。今天就分享到这里,接下来会和大家一起分享新站搜索引擎收录方面的情况,敬请期待。明天就要回家了,真高兴,希望放爆竹的时候可能赶到家!在这再祝福一下所有的站长和A五的工作人员,新年快乐!阖家幸福!
    本系列文章由阿土伯爆笑笑话()站长撰写,首发A5,请留链接
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们 | 联系我们| 招贤纳士 | 友情链接 | 客服中心| 网站地图

快速回复 返回顶部 返回列表