2019 年 9月 11 日随笔档案 - JRB

2019年9月11日

摘要：什么是正则表达式：通俗理解：按照一定的规则，从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案：https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin 一个段子：世界是分为两种人，一种是懂正则表达式的，一种是不懂正则表达式的。正阅读全文

posted @ 2019-09-11 10:56 JRB 阅读(133) 评论(0) 推荐(0) 编辑

Scrapy框架

摘要： Scrapy框架介绍：写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）阅读全文

posted @ 2019-09-11 10:56 JRB 阅读(167) 评论(0) 推荐(0) 编辑

http协议和Chrome抓包工具

摘要：什么是http和https协议： HTTP协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议：是HTTP协议的加密版本，在HTTP下加入了SSL层。服务器端口号是443端口。在浏阅读全文

posted @ 2019-09-11 10:53 JRB 阅读(398) 评论(0) 推荐(0) 编辑

requests库

摘要： requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests宣传是 “HTTP for Humans”，说明使用更简洁方便。安装和文档地址：利用pip可以非常方便的安装：中文文档：http:/ 阅读全文

posted @ 2019-09-11 10:52 JRB 阅读(186) 评论(0) 推荐(0) 编辑

Beautifulsoup

摘要： BeautifulSoup4库和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会阅读全文

posted @ 2019-09-11 10:50 JRB 阅读(303) 评论(0) 推荐(0) 编辑

xpath

摘要： XPath语法和lxml模块什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 XPath语法选取节点： XPath 使用路径表达式来选取 XML 文档中的节点阅读全文

posted @ 2019-09-11 10:48 JRB 阅读(229) 评论(0) 推荐(0) 编辑

小白自学的课堂

公告