试用爬虫

经常能看到各种爬虫,可以自动化抓取网页内容保存

比如爬虫练习-爬取《斗破苍穹》全文小说这样的,里边附有完整代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# 导入相应的库文件
import requests
import re
import time

# 加入请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                         'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}


# 定义获取信息的函数
def get_info(url):
    res = requests.get(url, headers=headers)
    html = res.content.decode('utf-8')
    print(url, res.status_code)
    if res.status_code == 200:  # 判断请求码是否为200
        contents = re.findall('<p>(.*?)</p>', html, re.S)

        for content in contents:
            new_con = str(content).replace('</p>', '').replace('<p>', '')
            f.write(new_con+'\n')  # 正则获取数据写入TXT文件中
        f.write("---------------------------------\n"  # 分割线
                "---------------------------------\n"
                "---------------------------------\n")


# 程序主入口
if __name__ == '__main__':
    # 构造多页URL
    urls = ['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(1, 1647)]

    # 新建TXT文档,追加的方式
    f = open('doupo.txt', 'a+')

    for url in urls:
        get_info(url)  # 循环调用get_info()函数
        time.sleep(1)  # 睡眠1秒
    f.close()  # 关闭TXT文件

这个代码如果成功运行,可以从很多很多页面中提取出文字,保存为一个完整的TXT文件。

这类python代码的使用方法如下:

1、下载并安装PyCharm(官网下载)

2、打开PyCharm,新建项目,把代码粘贴进main.py,然后点击右上角绿色三角形播放按钮

3、报错了,原因是缺少引用的库文件,进file-settings-project:pythonProject-Python Interpreter,先选择Python Interpreter,然后点击+号,在搜索框输入缺少的库并安装

4、愉快的玩耍。

 

posted @ 2022-01-22 23:54  野生特效测试员  阅读(31)  评论(0编辑  收藏  举报