Python - 随笔分类 - 爱吃雪糕的小布丁

python提取图片型pdf中的文字（提取pdf扫描件文字）

摘要：前言文字型pdf提取，python的库一大堆，但是图片型pdf和pdf扫描件提取，还是有些难度的，我们需要用到OCR（光学字符识别）功能。一、准备 1、安装OCR（光学字符识别）支持库首先要安装pytesseract和Tesserac OCR，Tesseract OCR是一种广泛使用的OCR工阅读全文

posted @ 2023-12-17 15:35 爱吃雪糕的小布丁阅读(2299) 评论(0) 推荐(0)

Pycharm设置.py文件模版和设置活动模版（代码自动补全）

摘要：一、设置.py文件模版有时候我们想新建.py文件的时候，让这个文件里面默认有一些内容，比如utf-8编码修改，我们应该怎么在PyCharm中设置呢？依次点击 File -> Settings -> Editor -> File and Code Template，进入如下界面：我们点击Pyth 阅读全文

posted @ 2023-04-20 09:45 爱吃雪糕的小布丁阅读(132) 评论(0) 推荐(0)

Scrapy的callback进入不了回调方法

摘要：一、前言有的时候，Scrapy的callback方法直接被略过了，不去执行其中的回调方法，可能排查好久都排查不出来，我来教大家集中解决方法。 yield Request(url=url, callback=self.parse_detail, cb_kwargs={'item': item}) 二阅读全文

posted @ 2023-03-24 17:58 爱吃雪糕的小布丁阅读(141) 评论(0) 推荐(0)

Python实现rar、zip和7z文件的压缩和解压

摘要：一、7z压缩文件的压缩和解压 1、安装py7zr 我们要先安装py7zr第三方库： pip install py7zr 如果python环境有问题，执行上面那一条安装语句老是安装在默认的python环境的话，我们可以执行下面这条语句，将第三方库安装在项目的虚拟环境中： pip install py7 阅读全文

posted @ 2023-03-23 18:10 爱吃雪糕的小布丁阅读(2300) 评论(0) 推荐(0)

使用Pycharm编写python时，明明把第三方库导入了，但是还是报错ModuleNotFoundError: No module named ‘bs4‘

摘要：使用Pycharm编写python时，明明把第三方库导入了，但是还是报错ModuleNotFoundError: No module named ‘bs4’ 报错图片如下：题主的原因是，我导包的方法是把引用包的import语句先写上，然后通过pycharm的提示进行导包的，如下：我没有通过命令行阅读全文

posted @ 2022-06-23 19:35 爱吃雪糕的小布丁阅读(76) 评论(0) 推荐(0)

将bs4.element.ResultSet类型转换为bs4.BeautifulSoup类型

摘要：首先我们查看一下request库的返回值类型，这样就知道BeautifulSoup构造方法需要什么类型的参数了： request返回值类型： <class 'str'> 我们发现，request库的返回值类型是String，也就是说，我们可以先把bs4.element.ResultSet类型转换为S 阅读全文

posted @ 2022-06-23 17:15 爱吃雪糕的小布丁阅读(44) 评论(0) 推荐(0)

使用Scrapy爬虫框架实现简单项目

摘要：1.首先安装Scrapy爬虫第三方库，在命令行安装： pip install scrapy 2.使用命令行创建项目，需要先在命令行进入你想创建项目的文件夹： scrapy startproject demo(项目名称) 项目最好不要用全局的python环境，最好自己给项目创建一个虚拟环境venv。阅读全文

posted @ 2022-06-23 11:14 爱吃雪糕的小布丁阅读(19) 评论(0) 推荐(0)

用Scrapy和Selenium爬取动态数据

摘要：文章参考千锋教育大佬的课程： https://www.bilibili.com/video/BV1QY411F7Vt?p=1&vd_source=5f425e0074a7f92921f53ab87712357b ，多谢大佬的课程一、用Selenium操作谷歌浏览器，登录TB账号获取Cookie 阅读全文

posted @ 2022-06-23 10:40 爱吃雪糕的小布丁阅读(19) 评论(0) 推荐(0)

python在虚拟解释器环境中使用pip安装第三方库出现Requirement already satisfied错误

摘要：出现的错误为： Looking in indexes: https://pypi.doubanio.com/simple Requirement already satisfied: fake_useragent in g:\anoconda\setup\lib\site-packages (0.1 阅读全文

posted @ 2022-06-21 11:07 爱吃雪糕的小布丁阅读(217) 评论(0) 推荐(0)

随笔分类 - Python

公告