如何得到蜘蛛IP

公司最近要做防抓取的事情,为了防止误封蜘蛛IP,需要把蜘蛛的IP列入白名单,于是简单的给同事整理了一些小东西。

1.可以拉近期几个月或者半年的访问日志,通过UA识别蜘蛛,记录蜘蛛IP。
2.另外搜索引擎也会加服务器,可能需要定期更新下IP地址。

简单整理的蜘蛛User-Agent:
baiduspider(百度)
360spider(360好搜)
haosouspider(360好搜)
sogouspider(搜狗)
googlebot(谷歌)
SogouNewsSpider(搜狗搜搜合并后)
Yisouspider(神马蜘蛛)
bingbot(微软bing)
如何识别真假百度蜘蛛:
http://zhanzhang.baidu.com/college/articleinfo?id=21 (百度官方文档)

工具:

http://tool.itseo.net/spider.jsp

相关文档:

如何识别搜索引擎爬虫真伪(百度、搜狗、360):

http://www.lanzhihui.com/?p=1270

shell提取真实百度蜘蛛的ip来访日志:

http://www.lanzhihui.com/?p=104

Shell 批量百度真假爬虫识别:

http://www.lanzhihui.com/?p=1335

猜您喜欢