摘要: 做整理的时间从来不是浪费。 一、补充知识 1、 ddos攻击 首先从一个比方来深入理解什么是DDOS。一群恶霸试图让对面那家有着竞争关系的商铺无法正常营业,他们会采取什么手段呢?(只为举例,切勿模仿)恶霸们扮作普通客户一直拥挤在对手的商铺,赖着不走,真正的购物者却无法进入;或者总是和营业员有一搭没一 阅读全文
posted @ 2020-01-21 15:15 橘子酱ing 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 在使用pycharm时,经常会需要多行代码同时缩进、左移,pycharm提供了快捷方式 1、pycharm使多行代码同时缩进 鼠标选中多行代码后,按下Tab键,一次缩进四个字符 2、pycharm使多行代码同时左移 鼠标选中多行代码后,同时按住shift+Tab键,一次左移四个字符 阅读全文
posted @ 2020-01-05 17:25 橘子酱ing 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 4.3 使用pyquery 1、准备工作 在开始之前,请确保已经正确安装好了pyquery。 2、初始化 像Beautiful Soup一样,初始化pyquery的时候,也需要传入HTML文本来初始化一个PyQuery对象。它的初始化方式有多种,比如直接传入字符串,传入URL,传入文件名,等等。 字 阅读全文
posted @ 2019-08-29 16:30 橘子酱ing 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 4.2 使用Beautiful Soup 1、简介 Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将 阅读全文
posted @ 2019-08-29 14:26 橘子酱ing 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 4.1 使用XPath XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。 1、XPath概览 官方文档:https://www.w3.org/TR/xpath/。 2、XPa 阅读全文
posted @ 2019-08-29 08:41 橘子酱ing 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 之前看的是《Python网络爬虫权威指南》,看到了第三章,进度有些慢,可能是我领悟比较低。本来打算一本一本来,现在觉得变通一下可能比较好,所以想先补一下基础知识。 2.1 HTTP基本原理 2.1.1 URI和URL URI,全称:Uniform Resource Identifier,即统一资源标 阅读全文
posted @ 2019-08-23 17:15 橘子酱ing 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 3.1 遍历单个域名 笔者尝试了三次, 本书源码处给出了运行结果:https://github.com/REMitchell/python-scraping/blob/master/Chapter03-web-crawlers.ipynb 如果你仔细观察那些指向词条页面的链接,会发现它们都有3个共同 阅读全文
posted @ 2019-08-23 10:24 橘子酱ing 阅读(2062) 评论(0) 推荐(0) 编辑
摘要: 2.1 不是一直都要用锤子 避免解析复杂HTML页面的方式: 寻找“打印此页”的链接,或者看看网站有没有HTML样式更友好的移动版本(把自己的请求头设置成处于移动设备的状态,然后接受网站移动版)。 寻找隐藏在JavaScript文件里的信息。要实现这一点,你可能需要查看网页加载的JavaScript 阅读全文
posted @ 2019-08-19 15:55 橘子酱ing 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 前言 这本书的所有代码示例都在GitHub网站上(https://github.com/REMitchell/python-scraping),可以查看和下载。 如果想要更全面地学习Python,Bill Lubanovic写的《Python语言及其应用》是一本非常好的教材。(笔者还没有看,笔者选用 阅读全文
posted @ 2019-08-17 10:16 橘子酱ing 阅读(1431) 评论(0) 推荐(0) 编辑
摘要: 3.1 泛映射类型 collections.abc模块中有Mapping和MutableMapping这两个抽象基类,它们的作用是为dict和其他类似的类型定义形式接口。 非抽象映射类型一般不会直接继承这些抽象基类,它们会直接对dict或是collections.UserDict进行扩展。这些抽象基 阅读全文
posted @ 2019-08-15 16:16 橘子酱ing 阅读(392) 评论(0) 推荐(0) 编辑