数据存储——json、CSV
摘要:json JSON(JavaScript Object Notation,JS对象标记)是一种轻重量级的数据交换。它是基于ECMAScript(w3c制定的js规范)的 一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。 易于人阅读和
阅读全文
posted @
2020-10-28 11:38
-豪-
阅读(298)
推荐(0) 编辑
正则表达式
摘要:正则表达式匹配规则: 匹配单个字符: 1.匹配某个字符 text = 'hello' ret = re.match('he',text) print(ret) # 输出结果 <re.Match object; span=(0, 2), match='he'> print(ret.group()) #
阅读全文
posted @
2020-10-27 15:35
-豪-
阅读(180)
推荐(0) 编辑
BeautifulSopup4
摘要:BeautifiulSoup和lxml一样也是一个HTML/XML的解析器,主要功能是解析和提取HTML/XML数据。 lxml只会局部遍历,而BEautifulSoup是基于HTML DOM(Document OBject Model)的,会载入整个文档,解析整个DOM树,因此,时间和内存开销都会
阅读全文
posted @
2020-10-22 20:58
-豪-
阅读(192)
推荐(0) 编辑
XPath
摘要:xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 1.Chrome插件XPath Helper。 2.Firefox插件Try XPath。 XPath 使用路径表达式来选取XMl
阅读全文
posted @
2020-10-19 20:54
-豪-
阅读(279)
推荐(0) 编辑
requests
摘要:requests库 安装和文档地址: 利用pip安装: pip install requests 中文文档:http://docs.python-requests.org/zh_CN/latest/index.html github地址:http://github.com/requests/requ
阅读全文
posted @
2020-10-18 21:55
-豪-
阅读(158)
推荐(0) 编辑
cookie
摘要:在网站中,HTTP请求是无状态的,即:第一次和服务器连接并登录成功后,第二次请求服务器依然不能知道当前请求是来自哪个用户。 cookie的出现解决了这一问题,第一次登陆后服务器会返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求时,就会自动的把上次请求存储的cooki
阅读全文
posted @
2020-10-18 13:13
-豪-
阅读(161)
推荐(0) 编辑
爬虫前奏
摘要:URL: URL是Uniform Resource Locator的简称,统一资源定位符。 一个URL一般由一下几部分组成: scheme://host:post/?quer-string=XXX#anchor scheme:代表的是访问协议,一般为:HTTP、HTTPS以及ftp等。 host:主
阅读全文
posted @
2020-10-09 22:07
-豪-
阅读(125)
推荐(0) 编辑