写一个简单的爬虫（博客）

写一个简单的爬虫，用来爬去一个网站上的html,css这些静态文件，Python3.0实现，re模块写正则表达式来匹配页面上的js和css文件名，使用os模块创建存放文件的文件夹，代码如下：

先在当前目录创建一个目录spider, 分别创建子目录bin(程序开始运行的start.py),conf(信息配置setting.py)目录，core(获取HTML的代码和工具代码文件，get_html.py,tools.py)

1. start.py主要是运行主程序的，代码实现如下：

2. get_html.py代码实现如下：

3. tools.py主要实现文件写操作，代码如下：

4.settings.py主要实现目标目录的拼接，代码如下：

5.extra.py代码实现如下：

posted on 2017-06-27 10:37 国元阅读(134) 评论(0) 收藏举报

刷新页面返回顶部

国元