上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 37 下一页
摘要: 启动redis 设置外网访问 设置访问密码 打开redis.conf文件,搜索requirepass关键字 设置后台启动 阅读全文
posted @ 2018-11-02 15:23 发疯的man 阅读(204) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-11-02 10:48 发疯的man 阅读(989) 评论(0) 推荐(0) 编辑
摘要: 话不多说,都是干货!!! 页面的生命周期: 当打开一个页面的时候,会触发onLoad和onReady和onShow事件。 onLoad和onReady只触发一次。除非卸载了页面就是触发了onUnload事件。 阅读全文
posted @ 2018-10-30 22:25 发疯的man 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 一般遇到动态加载的网页就比较棘手,一般采用scrapy_splash和selenium这两种方式来解决。貌似scrapy_splash更强大,因为就从爬取美团这个网站而言,scrapy_splash可以实现,selenium没有实现。可能selenium没有设置对吧,按理说都应该可以的。 首先需要你 阅读全文
posted @ 2018-10-29 10:39 发疯的man 阅读(1671) 评论(0) 推荐(0) 编辑
摘要: sub 方法 sub 方法用于替换。它的使用形式如下: sub(repl, string[, count]) 其中,repl 可以是字符串也可以是一个函数: 如果 repl 是字符串,则会使用 repl 去替换字符串每一个匹配的子串,并返回替换后的字符串,另外,repl 还可以使用 id 的形式来引 阅读全文
posted @ 2018-10-26 23:21 发疯的man 阅读(165) 评论(0) 推荐(0) 编辑
摘要: Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端 阅读全文
posted @ 2018-10-25 18:18 发疯的man 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 创建文件模板 CrawlSpiders就是为爬取整站孕育而生的,我们以前是分页下一页,然后再yied。这样太麻烦。CrawlSpiders是你只需要写好规则之后。他就会根据你这一页的response得到符合条件的url,然后再进去,再分析。 只需要增加两三行代码就可以替换我们以前的分页逻辑。 Lin 阅读全文
posted @ 2018-10-25 00:30 发疯的man 阅读(842) 评论(1) 推荐(0) 编辑
摘要: Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自 阅读全文
posted @ 2018-10-24 16:04 发疯的man 阅读(995) 评论(0) 推荐(0) 编辑
摘要: 安装方式 基本GET请求(headers参数 和 parmas参数) 1. 最基本的GET请求可以直接用get方法 2. 添加 headers 和 查询参数 如果想添加 headers,可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递,可以利用 params 阅读全文
posted @ 2018-10-24 13:55 发疯的man 阅读(1940) 评论(0) 推荐(0) 编辑
摘要: css 不包含那个类 获取属性和文本 获取类page-en倒数第二个节点 xpath 获取<li>标签下hre 为 link1.html 的 <a> 标签 获取最后一个 <li> 的 <a> 的 href 获取倒数第二个元素的内容 获取<li> 标签下的所有 <span> 标签 阅读全文
posted @ 2018-10-22 13:13 发疯的man 阅读(1411) 评论(0) 推荐(0) 编辑
上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 37 下一页