摘要:
我们首先了解一下 Urllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块: 第一个模块 request,它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有 阅读全文
摘要:
HTTP请求的Python实现帮助大家了解Python中实现HTTP请求的各种方式 具备编写HTTP网络程序的能力 通用网络爬虫 聚焦网络爬虫 增量式网络爬虫 深层网络爬虫 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 0 搜索引擎search Engine 通用的网络爬虫 存在一定的 局限性 阅读全文
摘要:
JSON是JavaScript对象表示法 JavaScript Object Notation 用于存储和交换文本信息 JSON比XML更小 更快 更易解析 因此 JSON 在网络传输中 尤其是Web前端中运用非常广泛 JSON使用JavaScript语法来描述数据对象 JSON仍然独立于原因和平台 阅读全文
摘要:
一门在XML文档中查找信息的语言,通过属性和元素进行导航 可用于HTML文档 大部分浏览器也支持通过XPath来查询节点 在Python爬虫开发中经常使用XPath查询提取网页中的 信息 因此XPath非常重要 XPath既然 叫Path 以路径表达式的形式来指定元素 节点 语法 轴 和运算符 XM 阅读全文
摘要:
Web技术领域最具权威和影响力的国际中立性技术标准机构 万维网联盟 W3C 标准不是某一个标准 而是一系列 标准的 集合 网页组成: 结构structure 表现presentation 行为behavior HTML不是编程语言 标记语言 web浏览器的作用读取HTML文档 你我皆凡人 生在人世间 阅读全文
摘要:
IO在计算机中指的是Input/Output也就是输入输出 凡是用到数据交换的地方 都会涉及IO编程 例如 磁盘 网络的数据传输 在IO编程中 Stream流是一种重要的概念 分为 输入流 和输出流 ,可以把 流理解为一个水管 数据相当于水管中的 水 但是只能单向流动 所以数据传输过程中 需要架设两 阅读全文
摘要:
爬虫开发过程中 进程和线程的概念是非常重要的 提高爬虫的 工作效率 打造分布式爬虫 都离不开进程和线程的身影 多进程 多线程 协程 分布式进程等四个方面 使用os模块中的fork方法 使用multiprocessing模块 前者仅仅适用Unix/Linux操作系统 对windows不支持 后者是跨平 阅读全文
摘要:
对象的序列化在很多高级编程语言中都有相应的实现 程序运行时候 所有的 变量都是在内存中的 d=dict(url="index.html",title="首页",content="首页") 程序运行过程中 爬取的页面的链接 会不断变化 比如url改成second.html 但是程序一结束 或意外中断 阅读全文
摘要:
当我们想在容器中存储的对象是独一无二的时候 就不那么有效了 集合是无序的 知道的不多冲动就大 可哈希对象 与 可用做字典键值 正是因为穷啊 强东哥哥 阅读全文
摘要:
a=object() a.x=7 这样是错误的 为了节省内存 Python默认禁止object拥有任何属性 其他的一些内置数据结构也是一样 在我们的类中 可以使用插槽(slot) 来限制任意priperty属性 类和对象应该只在你想要同时指定数据和行为的时候被使用 如果你要用可以修改的 为什么不用列 阅读全文