随笔 - 24,  文章 - 45,  评论 - 0,  阅读 - 14854
10 2020 档案
数据存储——json、CSV
摘要:json JSON(JavaScript Object Notation,JS对象标记)是一种轻重量级的数据交换。它是基于ECMAScript(w3c制定的js规范)的 一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。 易于人阅读和 阅读全文
posted @ 2020-10-28 11:38 -豪- 阅读(298) 评论(0) 推荐(0) 编辑
正则表达式
摘要:正则表达式匹配规则: 匹配单个字符: 1.匹配某个字符 text = 'hello' ret = re.match('he',text) print(ret) # 输出结果 <re.Match object; span=(0, 2), match='he'> print(ret.group()) # 阅读全文
posted @ 2020-10-27 15:35 -豪- 阅读(180) 评论(0) 推荐(0) 编辑
BeautifulSopup4
摘要:BeautifiulSoup和lxml一样也是一个HTML/XML的解析器,主要功能是解析和提取HTML/XML数据。 lxml只会局部遍历,而BEautifulSoup是基于HTML DOM(Document OBject Model)的,会载入整个文档,解析整个DOM树,因此,时间和内存开销都会 阅读全文
posted @ 2020-10-22 20:58 -豪- 阅读(192) 评论(0) 推荐(0) 编辑
XPath
摘要:xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 1.Chrome插件XPath Helper。 2.Firefox插件Try XPath。 XPath 使用路径表达式来选取XMl 阅读全文
posted @ 2020-10-19 20:54 -豪- 阅读(279) 评论(0) 推荐(0) 编辑
requests
摘要:requests库 安装和文档地址: 利用pip安装: pip install requests 中文文档:http://docs.python-requests.org/zh_CN/latest/index.html github地址:http://github.com/requests/requ 阅读全文
posted @ 2020-10-18 21:55 -豪- 阅读(158) 评论(0) 推荐(0) 编辑
cookie
摘要:在网站中,HTTP请求是无状态的,即:第一次和服务器连接并登录成功后,第二次请求服务器依然不能知道当前请求是来自哪个用户。 cookie的出现解决了这一问题,第一次登陆后服务器会返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求时,就会自动的把上次请求存储的cooki 阅读全文
posted @ 2020-10-18 13:13 -豪- 阅读(161) 评论(0) 推荐(0) 编辑
爬虫前奏
摘要:URL: URL是Uniform Resource Locator的简称,统一资源定位符。 一个URL一般由一下几部分组成: scheme://host:post/?quer-string=XXX#anchor scheme:代表的是访问协议,一般为:HTTP、HTTPS以及ftp等。 host:主 阅读全文
posted @ 2020-10-09 22:07 -豪- 阅读(125) 评论(0) 推荐(0) 编辑


< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示