2021 年 2月 27 日随笔档案 - 止一

2021年2月27日

摘要：【项目目标】对大量的公司年报（PDF文件）进行关键词的识别与提取，判断文件是否含有“增值税留抵税额：XXXX”，并将这份文件的名字和此内容写入表格【项目实现】 1.导入处理PDF的python库 1 import pdfplumber 2 import PyPDF2 3 import re 4 阅读全文

posted @ 2021-02-27 22:47 止一阅读(5646) 评论(0) 推荐(0) 编辑

【爬虫】必应图片按关键词进行图片下载

摘要： 1 """ 2 关键是找到正确的url，然后判断组成url的参数的规律，多观察几个url即可得出规律 3 """ 4 5 import requests 6 from fake_useragent import UserAgent 7 import os 8 from lxml import etr 阅读全文

posted @ 2021-02-27 17:44 止一阅读(176) 评论(0) 推荐(0) 编辑

Scrapy_糗事百科

摘要： 1.进入桌面 1 cd C:\Users\Mr_wa\Desktop 2.新建项目 scrapy startproject qsbk 3.新建爬虫 cd qsbk scrapy genspider qsbk_spider qiushibaike.com 4.修改settings.py 1 ROBOT 阅读全文

posted @ 2021-02-27 17:42 止一阅读(72) 评论(0) 推荐(0) 编辑