写一个简单的爬虫(博客)
写一个简单的爬虫,用来爬去一个网站上的html,css这些静态文件,Python3.0实现,re模块写正则表达式来匹配页面上的js和css文件名,使用os模块创建存放文件的文件夹,代码如下:
先在当前目录创建一个目录spider, 分别创建子目录bin(程序开始运行的start.py),conf(信息配置setting.py)目录,core(获取HTML的代码和工具代码文件,get_html.py,tools.py)
1. start.py主要是运行主程序的,代码实现如下:
2. get_html.py代码实现如下:
3. tools.py主要实现文件写操作,代码如下:
4.settings.py主要实现目标目录的拼接,代码如下:
5.extra.py代码实现如下: