随笔档案「2019年1月4日」：python解析PDF文档 ... - lujiacheng

2019年1月4日

摘要： 1.安装 2. python读取PDF文档代码分析 PDF格式不是规范格式. 尽管它被叫做"PDF文档", 但并不像word或者html文档。PDF的表现更像一张图片。PDF更像是在一张纸的各个准确的位置上把内容都摆放出来。大部分情况下，没有逻辑结构，比如句子或段落，并且不能自适应页面大小的调整。P 阅读全文

posted @ 2019-01-04 19:49 lujiacheng 阅读(1958) 评论(0) 推荐(0)

scrapy之源码解析

摘要：由于本人知识有限，只看懂到这里，后续再更新。。。。。阅读全文

posted @ 2019-01-04 19:22 lujiacheng 阅读(513) 评论(0) 推荐(0)

scrapy之settings参数

摘要： #==>第一部分：基本配置第二部分：并发与延迟第三部分：智能限速/自动节流：AutoThrottle extension第四部分：爬取深度与爬取方式第五部分：中间件、Pipelines、扩展第六部分：缓存第七部分：线程池第八部分：其他默认配置参考<=== D:\python3.6\Lib\site-packages\scrapy\settings\default_settings.py 阅读全文

posted @ 2019-01-04 19:18 lujiacheng 阅读(693) 评论(0) 推荐(0)

Scrapy之pipeline&扩展

摘要： 1.自定义pipeline 实例 2. 自定义扩展阅读全文

posted @ 2019-01-04 19:09 lujiacheng 阅读(240) 评论(0) 推荐(0)

IT_study

志不达智不达，恒心者方能成大事者也

公告