python - 随笔分类 - 发疯的man

scrapy_splash模块解析动态js

摘要：一般遇到动态加载的网页就比较棘手，一般采用scrapy_splash和selenium这两种方式来解决。貌似scrapy_splash更强大，因为就从爬取美团这个网站而言，scrapy_splash可以实现，selenium没有实现。可能selenium没有设置对吧，按理说都应该可以的。首先需要你阅读全文

posted @ 2018-10-29 10:39 发疯的man 阅读(1693) 评论(0) 推荐(0)

re正则表达式

摘要：sub 方法 sub 方法用于替换。它的使用形式如下： sub(repl, string[, count]) 其中，repl 可以是字符串也可以是一个函数：如果 repl 是字符串，则会使用 repl 去替换字符串每一个匹配的子串，并返回替换后的字符串，另外，repl 还可以使用 id 的形式来引阅读全文

posted @ 2018-10-26 23:21 发疯的man 阅读(175) 评论(0) 推荐(0)

Scrapy Shell的使用

摘要：Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端阅读全文

posted @ 2018-10-25 18:18 发疯的man 阅读(690) 评论(0) 推荐(0)

CrawlSpiders模块的使用

摘要：创建文件模板 CrawlSpiders就是为爬取整站孕育而生的，我们以前是分页下一页，然后再yied。这样太麻烦。CrawlSpiders是你只需要写好规则之后。他就会根据你这一页的response得到符合条件的url，然后再进去，再分析。只需要增加两三行代码就可以替换我们以前的分页逻辑。 Lin 阅读全文

posted @ 2018-10-25 00:30 发疯的man 阅读(867) 评论(1) 推荐(0)

Selenium模块的使用

摘要：Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们的指令，让浏览器自阅读全文

posted @ 2018-10-24 16:04 发疯的man 阅读(1017) 评论(0) 推荐(0)

request模块的使用

摘要：安装方式基本GET请求（headers参数和 parmas参数） 1. 最基本的GET请求可以直接用get方法 2. 添加 headers 和查询参数如果想添加 headers，可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递，可以利用 params 阅读全文

posted @ 2018-10-24 13:55 发疯的man 阅读(1990) 评论(0) 推荐(0)

scrapy中的xpath用法和css的用法

摘要：css 不包含那个类获取属性和文本获取类page-en倒数第二个节点 xpath 获取<li>标签下hre 为 link1.html 的 <a> 标签获取最后一个 <li> 的 <a> 的 href 获取倒数第二个元素的内容获取<li> 标签下的所有 <span> 标签阅读全文

posted @ 2018-10-22 13:13 发疯的man 阅读(1430) 评论(0) 推荐(0)

scrapy框架使用教程

摘要：scrapy框架真的是很强大。非常值得学习一下。本身py就追求简洁，所以本身代码量很少却能写出很强大的功能。对比java来说。不过py的语法有些操蛋，比如没有智能提示。动态语言的通病。我也刚学习不到1周时间。记录一下。全部干货。首先安装scrapy框架。选择的ide是pycharm。创建一个sc 阅读全文

posted @ 2018-10-18 13:35 发疯的man 阅读(6013) 评论(0) 推荐(0)

python遇到的知识点

摘要：python遇到的知识点，记录一下。方便学习。文件相关操作判断文件或者文件夹是否存在，若不存在就创建把网络上的图片保存到本地读取文件内容拷贝文件编码问题，字节和字符串的互转 md5加密打开一张本地的图片将字符串转换成 selector 用于xpath和css的提取阅读全文

posted @ 2018-10-12 14:55 发疯的man 阅读(423) 评论(0) 推荐(0)

敲代码的卡卡罗特

公众号：干货食堂。关注免费领取java最新实战项目。es，redis，mq，mysql，分布式等。个人博客：https://blog.coder-lzh.top/

随笔分类 - python

公告

敲代码的卡卡罗特

公众号：干货食堂。 关注免费领取java最新实战项目。es，redis，mq，mysql，分布式等。 个人博客：https://blog.coder-lzh.top/

随笔分类 - python

公告

公众号：干货食堂。关注免费领取java最新实战项目。es，redis，mq，mysql，分布式等。个人博客：https://blog.coder-lzh.top/