随笔分类 -  python高级应用

Python的高级运用
摘要:最近在爬一个网站,然后爬到详情页的时候发现,目标内容是用pdf在线预览的 比如如下网站: https://camelot-py.readthedocs.io/en/master/_static/pdf/foo.pdf 根据我的分析发现,这样的在线预览pdf的采用了pdfjs加载预览,用爬虫的方法根本无法直接拿到pdf内的内容的,对的,你注意到了我说的【根本无法直接拿到】中的直接两个字,确实直接无法拿到,怎么办呢?只能把pdf先下载到本地,然后用工具转了,经过我查阅大量的相关资料发现,工具还是有很多:   1.借用第三方的pdf转换网站转出来   2.使用Python的包来转:如:pyPdf,pyPdf2,pyPdf4,pdfrw等工具 这些工具在pypi社区一搜一大把: 但是效果怎么样就不知道了,只能一个一个去试了,到后面我终于找到个库,非常符合我的需求的库 ——camelot camelot可以读取pdf文件中的数据,并且自动转换成p 阅读全文
posted @ 2019-12-30 12:58 Eeyhan 阅读(10651) 评论(4) 推荐(1) 编辑
摘要:最近有点空余就一直在开发我的项目,最近做了两个项目: IPproxy,看名字就知道啦,就是一个ip代理池,爬取了各大免费的代理网站,然后检测可用性,github地址 相关的介绍github上已经说明了 get_jobs,爬取了几十个招聘类网站的数据,github地址 同样的,相关的介绍github上已经说明了 根据以上爬取的大概也许可能接近上百个网站吧,加上我初学爬虫的时候爬的网站,现在也算是爬了有接近上千个网站了,对爬虫也算是小有心得了,下面就开始说说吧 阅读全文
posted @ 2019-09-29 11:54 Eeyhan 阅读(10668) 评论(5) 推荐(8) 编辑
摘要:虚拟环境 什么是虚拟环境 对电脑稍微有点常识的朋友相信都玩过,比如VMware,virtualbox,或者你用电脑端的模拟器玩手机端的游戏也是一样,其实就是一个假的空间,在Python这里,虚拟环境就是虚拟的开发环境,你可以在里面做任何正常的操作,并且 不会对外部真实电脑环境有任何影响 虚拟环境原理介绍: 虚拟环境相当于一个抽屉,在这个抽屉中安装的任何软件包都不会影响到其他抽屉。并且在项目中,我可以指定这个项目的虚拟环境来配合我的项目。 阅读全文
posted @ 2019-03-19 18:28 Eeyhan 阅读(402) 评论(0) 推荐(2) 编辑
摘要:验证码简介 验证码的作用: 验证码在现在来说,是很常见的东西,可以一定程度的保护网站,比如防止网络爬虫恶意爬取网站数据啊,减少低级的攻击啊什么的。但是高级点的骚操作还是不太好防范,所以现在的验证码平台也在升级强化,为了把人和机器严格分开。但是这东西,永远都是看哪一方技术高低的,谁的技术高级,谁就能干倒另一方了。详细的就不说了,总而言之,验证码可以说是目前所有的面向用户的平台都会用到的,所以这项技能必须得会啊。 使用Python库自定义验证码 要自己定义验证码,就得使用pillow库,先用pip install pillow 安装,安装步骤就略过了 阅读全文
posted @ 2019-03-10 01:02 Eeyhan 阅读(1002) 评论(2) 推荐(0) 编辑
摘要:回顾知识 一 操作系统的作用: 隐藏丑陋复杂的硬件接口,提供良好的抽象接口 管理、调度进程,并且将多个进程对硬件的竞争变得有序 关于操作系统的发展史,可以参考我之前的一篇博文:传送门 二 多道技术: 阅读全文
posted @ 2018-11-17 17:31 Eeyhan 阅读(248) 评论(0) 推荐(0) 编辑
摘要:Python基础回顾 认识变量 在学习了之前的Python零基础入门系列【洗礼灵魂,修炼Python】,说明一下,这个系列现在回过来再来看这个名字确实好土啊,然后有些知识点感觉还不太精准,后期看如果有时间再调整下,名字的话就这样了,不想改了,要改的话起码得改大半天 好的,回正题,学完前面的基础系列相信你已经对Python有了一个大概的了解了。本系列是Python高级,所以先简单回顾一下 变量及变量的作用 阅读全文
posted @ 2018-11-17 12:04 Eeyhan 阅读(502) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示