试用爬虫
经常能看到各种爬虫,可以自动化抓取网页内容保存
比如爬虫练习-爬取《斗破苍穹》全文小说这样的,里边附有完整代码
#!/usr/bin/env python # -*- coding: utf-8 -*- # 导入相应的库文件 import requests import re import time # 加入请求头 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'} # 定义获取信息的函数 def get_info(url): res = requests.get(url, headers=headers) html = res.content.decode('utf-8') print(url, res.status_code) if res.status_code == 200: # 判断请求码是否为200 contents = re.findall('<p>(.*?)</p>', html, re.S) for content in contents: new_con = str(content).replace('</p>', '').replace('<p>', '') f.write(new_con+'\n') # 正则获取数据写入TXT文件中 f.write("---------------------------------\n" # 分割线 "---------------------------------\n" "---------------------------------\n") # 程序主入口 if __name__ == '__main__': # 构造多页URL urls = ['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(1, 1647)] # 新建TXT文档,追加的方式 f = open('doupo.txt', 'a+') for url in urls: get_info(url) # 循环调用get_info()函数 time.sleep(1) # 睡眠1秒 f.close() # 关闭TXT文件
这个代码如果成功运行,可以从很多很多页面中提取出文字,保存为一个完整的TXT文件。
这类python代码的使用方法如下:
2、打开PyCharm,新建项目,把代码粘贴进main.py,然后点击右上角绿色三角形播放按钮
3、报错了,原因是缺少引用的库文件,进file-settings-project:pythonProject-Python Interpreter,先选择Python Interpreter,然后点击+号,在搜索框输入缺少的库并安装
4、愉快的玩耍。