摘要:
【项目目标】 对大量的公司年报(PDF文件)进行关键词的识别与提取,判断文件是否含有“增值税留抵税额:XXXX”,并将这份文件的名字和此内容写入表格 【项目实现】 1.导入处理PDF的python库 1 import pdfplumber 2 import PyPDF2 3 import re 4 阅读全文
摘要:
1 """ 2 关键是找到正确的url,然后判断组成url的参数的规律,多观察几个url即可得出规律 3 """ 4 5 import requests 6 from fake_useragent import UserAgent 7 import os 8 from lxml import etr 阅读全文
摘要:
1.进入桌面 1 cd C:\Users\Mr_wa\Desktop 2.新建项目 scrapy startproject qsbk 3.新建爬虫 cd qsbk scrapy genspider qsbk_spider qiushibaike.com 4.修改settings.py 1 ROBOT 阅读全文