随笔档案「2018年7月4日」：Urllib库的使用 ... - duxiao123

2018年7月4日

摘要：我们首先了解一下 Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用，它包含四个模块：第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有阅读全文

posted @ 2018-07-04 18:22 duxiao123 阅读(198) 评论(0) 推荐(0)

Python爬虫的开发

摘要： HTTP请求的Python实现帮助大家了解Python中实现HTTP请求的各种方式具备编写HTTP网络程序的能力通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫实际的网络爬虫系统通常是几种爬虫技术相结合实现的 0 搜索引擎search Engine 通用的网络爬虫存在一定的局限性阅读全文

posted @ 2018-07-04 17:40 duxiao123 阅读(312) 评论(0) 推荐(0)

JSON

摘要： JSON是JavaScript对象表示法 JavaScript Object Notation 用于存储和交换文本信息 JSON比XML更小更快更易解析因此 JSON 在网络传输中尤其是Web前端中运用非常广泛 JSON使用JavaScript语法来描述数据对象 JSON仍然独立于原因和平台阅读全文

posted @ 2018-07-04 17:10 duxiao123 阅读(81) 评论(0) 推荐(0)

XPath

摘要：一门在XML文档中查找信息的语言，通过属性和元素进行导航可用于HTML文档大部分浏览器也支持通过XPath来查询节点在Python爬虫开发中经常使用XPath查询提取网页中的信息因此XPath非常重要 XPath既然叫Path 以路径表达式的形式来指定元素节点语法轴和运算符 XM 阅读全文

posted @ 2018-07-04 17:02 duxiao123 阅读(108) 评论(0) 推荐(0)

w3c

摘要： Web技术领域最具权威和影响力的国际中立性技术标准机构万维网联盟 W3C 标准不是某一个标准而是一系列标准的集合网页组成：结构structure 表现presentation 行为behavior HTML不是编程语言标记语言 web浏览器的作用读取HTML文档你我皆凡人生在人世间阅读全文

posted @ 2018-07-04 16:37 duxiao123 阅读(142) 评论(0) 推荐(0)

Python I/O操作

摘要： IO在计算机中指的是Input/Output也就是输入输出凡是用到数据交换的地方都会涉及IO编程例如磁盘网络的数据传输在IO编程中 Stream流是一种重要的概念分为输入流和输出流，可以把流理解为一个水管数据相当于水管中的水但是只能单向流动所以数据传输过程中需要架设两阅读全文

posted @ 2018-07-04 15:59 duxiao123 阅读(1123) 评论(0) 推荐(0)

python进程和线程

摘要：爬虫开发过程中进程和线程的概念是非常重要的提高爬虫的工作效率打造分布式爬虫都离不开进程和线程的身影多进程多线程协程分布式进程等四个方面使用os模块中的fork方法使用multiprocessing模块前者仅仅适用Unix/Linux操作系统对windows不支持后者是跨平阅读全文

posted @ 2018-07-04 11:59 duxiao123 阅读(126) 评论(0) 推荐(0)

python序列化操作

摘要：对象的序列化在很多高级编程语言中都有相应的实现程序运行时候所有的变量都是在内存中的 d=dict(url="index.html",title="首页",content="首页") 程序运行过程中爬取的页面的链接会不断变化比如url改成second.html 但是程序一结束或意外中断阅读全文

posted @ 2018-07-04 11:01 duxiao123 阅读(144) 评论(0) 推荐(0)

python集合

摘要：当我们想在容器中存储的对象是独一无二的时候就不那么有效了集合是无序的知道的不多冲动就大可哈希对象与可用做字典键值正是因为穷啊强东哥哥阅读全文

posted @ 2018-07-04 10:08 duxiao123 阅读(80) 评论(0) 推荐(0)

python object

摘要： a=object() a.x=7 这样是错误的为了节省内存 Python默认禁止object拥有任何属性其他的一些内置数据结构也是一样在我们的类中可以使用插槽(slot) 来限制任意priperty属性类和对象应该只在你想要同时指定数据和行为的时候被使用如果你要用可以修改的为什么不用列阅读全文

posted @ 2018-07-04 09:59 duxiao123 阅读(140) 评论(0) 推荐(0)

坚持下去不断精进

公告

坚持下去 不断精进

公告

坚持下去不断精进