试用爬虫

经常能看到各种爬虫，可以自动化抓取网页内容保存

#!/usr/bin/env python
# -*- coding: utf-8 -*-

# 导入相应的库文件
import requests
import re
import time

# 加入请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                         'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}


# 定义获取信息的函数
def get_info(url):
    res = requests.get(url, headers=headers)
    html = res.content.decode('utf-8')
    print(url, res.status_code)
    if res.status_code == 200:  # 判断请求码是否为200
        contents = re.findall('<p>(.*?)</p>', html, re.S)

        for content in contents:
            new_con = str(content).replace('</p>', '').replace('<p>', '')
            f.write(new_con+'\n')  # 正则获取数据写入TXT文件中
        f.write("---------------------------------\n"  # 分割线
                "---------------------------------\n"
                "---------------------------------\n")


# 程序主入口
if __name__ == '__main__':
    # 构造多页URL
    urls = ['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(1, 1647)]

    # 新建TXT文档，追加的方式
    f = open('doupo.txt', 'a+')

    for url in urls:
        get_info(url)  # 循环调用get_info()函数
        time.sleep(1)  # 睡眠1秒
    f.close()  # 关闭TXT文件

这个代码如果成功运行，可以从很多很多页面中提取出文字，保存为一个完整的TXT文件。

这类python代码的使用方法如下：

1、下载并安装PyCharm （官网下载）

2、打开PyCharm，新建项目，把代码粘贴进main.py，然后点击右上角绿色三角形播放按钮

3、报错了，原因是缺少引用的库文件，进file-settings-project:pythonProject-Python Interpreter，先选择Python Interpreter，然后点击+号，在搜索框输入缺少的库并安装

4、愉快的玩耍。

posted @ 2022-01-22 23:54 野生特效测试员阅读(62) 评论(0) 收藏举报

刷新页面返回顶部

野生特效测试员

试用爬虫

公告