随笔分类 - Python
摘要:前言 文字型pdf提取,python的库一大堆,但是图片型pdf和pdf扫描件提取,还是有些难度的,我们需要用到OCR(光学字符识别)功能。 一、准备 1、安装OCR(光学字符识别)支持库 首先要安装pytesseract和Tesserac OCR,Tesseract OCR是一种广泛使用的OCR工
阅读全文
摘要:一、设置.py文件模版 有时候我们想新建.py文件的时候,让这个文件里面默认有一些内容,比如utf-8编码修改,我们应该怎么在PyCharm中设置呢? 依次点击 File -> Settings -> Editor -> File and Code Template,进入如下界面: 我们点击Pyth
阅读全文
摘要:一、前言 有的时候,Scrapy的callback方法直接被略过了,不去执行其中的回调方法,可能排查好久都排查不出来,我来教大家集中解决方法。 yield Request(url=url, callback=self.parse_detail, cb_kwargs={'item': item}) 二
阅读全文
摘要:一、7z压缩文件的压缩和解压 1、安装py7zr 我们要先安装py7zr第三方库: pip install py7zr 如果python环境有问题,执行上面那一条安装语句老是安装在默认的python环境的话,我们可以执行下面这条语句,将第三方库安装在项目的虚拟环境中: pip install py7
阅读全文
摘要:使用Pycharm编写python时,明明把第三方库导入了,但是还是报错ModuleNotFoundError: No module named ‘bs4’ 报错图片如下: 题主的原因是,我导包的方法是把引用包的import语句先写上,然后通过pycharm的提示进行导包的,如下: 我没有通过命令行
阅读全文
摘要:首先我们查看一下request库的返回值类型,这样就知道BeautifulSoup构造方法需要什么类型的参数了: request返回值类型: <class 'str'> 我们发现,request库的返回值类型是String,也就是说,我们可以先把bs4.element.ResultSet类型转换为S
阅读全文
摘要:1.首先安装Scrapy爬虫第三方库,在命令行安装: pip install scrapy 2.使用命令行创建项目,需要先在命令行进入你想创建项目的文件夹: scrapy startproject demo(项目名称) 项目最好不要用全局的python环境,最好自己给项目创建一个虚拟环境venv。
阅读全文
摘要:文章参考千锋教育大佬的课程: https://www.bilibili.com/video/BV1QY411F7Vt?p=1&vd_source=5f425e0074a7f92921f53ab87712357b ,多谢大佬的课程 一、 用Selenium操作谷歌浏览器,登录TB账号获取Cookie
阅读全文
摘要:出现的错误为: Looking in indexes: https://pypi.doubanio.com/simple Requirement already satisfied: fake_useragent in g:\anoconda\setup\lib\site-packages (0.1
阅读全文