摘要:
做整理的时间从来不是浪费。 一、补充知识 1、 ddos攻击 首先从一个比方来深入理解什么是DDOS。一群恶霸试图让对面那家有着竞争关系的商铺无法正常营业,他们会采取什么手段呢?(只为举例,切勿模仿)恶霸们扮作普通客户一直拥挤在对手的商铺,赖着不走,真正的购物者却无法进入;或者总是和营业员有一搭没一 阅读全文
摘要:
在使用pycharm时,经常会需要多行代码同时缩进、左移,pycharm提供了快捷方式 1、pycharm使多行代码同时缩进 鼠标选中多行代码后,按下Tab键,一次缩进四个字符 2、pycharm使多行代码同时左移 鼠标选中多行代码后,同时按住shift+Tab键,一次左移四个字符 阅读全文
摘要:
4.3 使用pyquery 1、准备工作 在开始之前,请确保已经正确安装好了pyquery。 2、初始化 像Beautiful Soup一样,初始化pyquery的时候,也需要传入HTML文本来初始化一个PyQuery对象。它的初始化方式有多种,比如直接传入字符串,传入URL,传入文件名,等等。 字 阅读全文
摘要:
4.2 使用Beautiful Soup 1、简介 Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将 阅读全文
摘要:
4.1 使用XPath XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。 1、XPath概览 官方文档:https://www.w3.org/TR/xpath/。 2、XPa 阅读全文
摘要:
之前看的是《Python网络爬虫权威指南》,看到了第三章,进度有些慢,可能是我领悟比较低。本来打算一本一本来,现在觉得变通一下可能比较好,所以想先补一下基础知识。 2.1 HTTP基本原理 2.1.1 URI和URL URI,全称:Uniform Resource Identifier,即统一资源标 阅读全文
摘要:
3.1 遍历单个域名 笔者尝试了三次, 本书源码处给出了运行结果:https://github.com/REMitchell/python-scraping/blob/master/Chapter03-web-crawlers.ipynb 如果你仔细观察那些指向词条页面的链接,会发现它们都有3个共同 阅读全文
摘要:
2.1 不是一直都要用锤子 避免解析复杂HTML页面的方式: 寻找“打印此页”的链接,或者看看网站有没有HTML样式更友好的移动版本(把自己的请求头设置成处于移动设备的状态,然后接受网站移动版)。 寻找隐藏在JavaScript文件里的信息。要实现这一点,你可能需要查看网页加载的JavaScript 阅读全文
摘要:
前言 这本书的所有代码示例都在GitHub网站上(https://github.com/REMitchell/python-scraping),可以查看和下载。 如果想要更全面地学习Python,Bill Lubanovic写的《Python语言及其应用》是一本非常好的教材。(笔者还没有看,笔者选用 阅读全文
摘要:
3.1 泛映射类型 collections.abc模块中有Mapping和MutableMapping这两个抽象基类,它们的作用是为dict和其他类似的类型定义形式接口。 非抽象映射类型一般不会直接继承这些抽象基类,它们会直接对dict或是collections.UserDict进行扩展。这些抽象基 阅读全文