摘要: 【项目目标】 对大量的公司年报(PDF文件)进行关键词的识别与提取,判断文件是否含有“增值税留抵税额:XXXX”,并将这份文件的名字和此内容写入表格 【项目实现】 1.导入处理PDF的python库 1 import pdfplumber 2 import PyPDF2 3 import re 4 阅读全文
posted @ 2021-02-27 22:47 止一 阅读(5504) 评论(0) 推荐(0) 编辑
摘要: 1 """ 2 关键是找到正确的url,然后判断组成url的参数的规律,多观察几个url即可得出规律 3 """ 4 5 import requests 6 from fake_useragent import UserAgent 7 import os 8 from lxml import etr 阅读全文
posted @ 2021-02-27 17:44 止一 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 1.进入桌面 1 cd C:\Users\Mr_wa\Desktop 2.新建项目 scrapy startproject qsbk 3.新建爬虫 cd qsbk scrapy genspider qsbk_spider qiushibaike.com 4.修改settings.py 1 ROBOT 阅读全文
posted @ 2021-02-27 17:42 止一 阅读(69) 评论(0) 推荐(0) 编辑