摘要:
增加多线程抓取数据,增加url判断,若数据已抓取,不在重复抓取 (可参考URL管理器) 需要再添加上队列,否则全开 from lxml import etree import requests import time import os import random import urllib3 fr 阅读全文
2020年1月20日
摘要:
昨天的代码 可以达到爬虫的目的 但是效果不理想,容易中断, 今天做了改进 增加写入文本,判断是否创建多层文件夹,增加了随机headers 可以多爬一些内容 不过还是会中断... from lxml import etree import requests import time import os 阅读全文
2020年1月19日
摘要:
from lxml import etree import requests """ 获取章节列表和地址 """ def getContents(): tagret = "https://www.kanunu8.com/files/old/2011/2447.html" req = requests 阅读全文
摘要:
数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向。 淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。 搜房、链家:抓取房产买卖及租 阅读全文
摘要:
练习使用requests BeautifulSoup 抓取一本小说存放到D盘中 速度比较慢、抓取服务器容易中断 # -*- coding:UTF-8 -*- import requests from bs4 import BeautifulSoup import re """ 获取书籍目录 """ 阅读全文
2020年1月16日
摘要:
pip install win32api pip install pywin32 都会提示错误,如下: Could not find a version that satisfies the requirement win32api (from versions: )No matching dist 阅读全文
摘要:
pycharm多行删除问题:1、打开一个新的py文件,光标处于加粗状态,也就是编程软件经常出现的insert插入编辑模式,按insert按键,退出了这个模式。2、 选中几行文字,按“back space”键无法删除,只能一个一个删除再写 后来网上找资料,说是因为安装pycharm的时候勾选了vim, 阅读全文
摘要:
安装完wxPython 测试程序出错 No module named"wx" 因使用PyCharm 导致路径问题找不到 File->settings->Project Interpreter: 选择其他的解释器就行 阅读全文
摘要:
wxPython 官网 https://pypi.org/project/wxPython/ wxPython 安装 pip install wxPython (安装失败) 推荐豆瓣镜像 pip3 install -i https://pypi.douban.com/simple wxpython 阅读全文
摘要:
升级PIP python -m pip install --upgrade pip -i https://pypi.douban.com/simple C:\Users\dangzhengtao>python -m pip install --upgrade pip -i https://pypi. 阅读全文