摘要:
JSON简介 JSON(全称JavaScript Obejct Notation,JavaScript对象标记),基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式,通过对象和数组的组合来表示数据,构造方法简洁且其结构化程度高,是一种轻量级的数据交换格式 阅读全文
摘要:
在上一次的学习实践中,我们以Tencent职位信息网站为例,介绍了在爬虫中如何分析待解析的网站结构,同时也说明了利用Xpath和lxml解析网站的一般化流程。在本节的实践中,我们将以中国天气网为例,并基于Beautiful Soup库对其进行数据解析,最后再简单说明pyecharts数据可视化。 中 阅读全文
摘要:
Beautiful Soup 和 lxml 一样,是Python的一个HTML/XML的解析库,它可以借助网页的结构和属性等特性来解析网页。它和lxml有相当的功能,也有着不同之处:lxml只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Mode 阅读全文
摘要:
在之前的学习笔记中,介绍了Xpath语法规则和lxml库的基本使用,同时也列举出了一部分示例代码。为了更加深入地学习和运用好这两大工具,下面以爬取Tencent招聘网站职位信息为实例介绍在实践中基于Xpath和lxml库编写爬虫的基本流程和方法。 Tencent招聘网址:https://hr.ten 阅读全文
摘要:
在之前的学习中了解了如何使用爬虫向目标服务器发送请求并获取响应,而此后便是要对响应进行处理,这里的处理在爬虫中通常指的是数据解析,即将相应内容数据化以方便我们进行有效数据的提取。在此过程中,有许多解析数据的方法,本节介绍利用Xpath和lxml库来解析数据。 Xpath Xpath(全称XML Pa 阅读全文
摘要:
在上一篇中学习了urllib库的基本使用,通过它我们可以完成爬虫中发送请求和处理响应的大部分功能,但在实际使用中多少会很繁琐,比如处理Cookie时需要创建handler和opener对象。正因为如此,就有了一个更友好且更强大的库requests,通过它我们也可以完成网页请求和处理,并且比urlli 阅读全文
摘要:
urllib库是python内置的实现HTTP请求的基本库,通过它可以模拟浏览器的行为,向指定的服务器发送一个请求,并保存服务器返回的数据。 urlopen函数 函数原型:urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,* 阅读全文
摘要:
http协议与https协议 HTTP协议(全称为HyperText Transfer Protocol,超文本传输协议),是发布和接收HTML页面的方法,其服务端口号为80。 HTTPS协议为HTTP协议的加密版本,其在HTTP下加入了SSL层,服务端口号为443。 URL结构解析 URL(Uni 阅读全文
摘要:
前几天发布了一篇名为《Android Studio 安装、配置及第一个程序演示》的博文,有不少童鞋都认真阅读过并照步骤一步一步操作了一遍,有滴如期成功地装好了,然鹅有滴反映说这不对呀,为森嚒我的和教程的长的不一样呀,按照教程操作不对呀。于是乎再次开启了砖工模式,陆续收集了教程中没有介绍的“安装bug 阅读全文
摘要:
前言 Android Studio是Google推出的一款基于IntelliJ IDEA的Android集成开发工具,其类似于Eclipse ADT。在官方推出后,经不断的维护换代更新,Android Studio已经日趋完善,其强大的功能与友好的交互性能使其备受开发人员的青睐,并逐渐成为Andro 阅读全文