02 2022 档案

python正则表达式和re模块：

摘要：什么是正则表达式：通俗理解：按照一定的规则，从某个字符串中匹配出想要的数据。这个规则就是正则表达式。一个段子：世界是分为两种人，一种是懂正则表达式的，一种是不懂正则表达式的。 Pycharm注册码安装教程资料：vrg123.com 正则表达式常用匹配规则：匹配某个字符串： text = 'h 阅读全文

posted @ 2022-02-27 13:46 程序员宋雨阅读(40) 评论(0) 推荐(0) 编辑

python爬虫BeautifulSoup4库

摘要：和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，阅读全文

posted @ 2022-02-19 16:21 程序员宋雨阅读(37) 评论(0) 推荐(0) 编辑

XPath语法和lxml模块

摘要：XPath语法和lxml模块什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 Firefox插件Try XPath。阅读全文

posted @ 2022-02-18 10:18 程序员宋雨阅读(45) 评论(0) 推荐(0) 编辑

python网络请求requests库

摘要：requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests宣传是 “HTTP for Humans”，说明使用更简洁方便。安装和文档地址：利用pip可以非常方便的安装： pip install 阅读全文

posted @ 2022-02-18 10:17 程序员宋雨阅读(138) 评论(0) 推荐(0) 编辑

PYTHON爬虫urllib库

摘要：urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。 urlopen函数：在Python3的urllib库中，所有和网络请求相关的方法，都被集到urllib.request模块下面了，以先来看下urlo 阅读全文

posted @ 2022-02-17 14:03 程序员宋雨阅读(55) 评论(0) 推荐(0) 编辑

http协议和Chrome抓包工具

摘要：http协议和Chrome抓包工具什么是http和https协议： HTTP协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议：是HTTP协议的加密版本，在HTTP下加入了SSL 阅读全文

posted @ 2022-02-16 09:33 程序员宋雨阅读(121) 评论(0) 推荐(0) 编辑

python网络请求-爬虫前奏

摘要：爬虫前奏爬虫的实际例子：搜索引擎（百度、谷歌、360搜索等）。伯乐在线。惠惠购物助手。数据分析与研究（数据冰山知乎专栏）。抢票软件等。什么是网络爬虫：通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来，然后使用一定的规则提取有价值的数据。专业介绍：百度阅读全文

posted @ 2022-02-16 09:31 程序员宋雨阅读(40) 评论(0) 推荐(0) 编辑

公告

昵称：程序员宋雨
园龄： 3年1个月
粉丝： 4
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

程序员宋雨

02 2022 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

推荐排行榜