冰溏 - 博客园

2021年11月

摘要：如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始。而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。 import rea = """sdfkhellolsdlfsdfiooefo:877898989worldafdsf"""b = r 阅读全文

posted @ 2021-11-24 10:13 冰溏阅读(156) 评论(0) 推荐(0) 编辑

正则表示之匹配多个字符

摘要：阅读全文

posted @ 2021-11-17 17:14 冰溏阅读(30) 评论(0) 推荐(0) 编辑

正则表达式单字符匹配

摘要：阅读全文

posted @ 2021-11-17 16:11 冰溏阅读(21) 评论(0) 推荐(0) 编辑

数据解析概述

摘要：聚焦爬虫：爬取页面中指定的页面内容。 -- 编码流程： -- 指定url -- 发起请求 -- 获取响应数据 -- 数据解析 -- 持久化存储数据解析分类： -- 正则 -- bs4 -- xpath 数据解析原理： -- 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 -- 1. 阅读全文

posted @ 2021-11-16 23:19 冰溏阅读(48) 评论(0) 推荐(0) 编辑

requests的post和get

摘要：阅读全文

posted @ 2021-11-12 22:22 冰溏阅读(30) 评论(0) 推荐(0) 编辑

Ajax请求

摘要： Ajax（Web数据交互方式） Ajax 在浏览器与 Web 服务器之间使用异步数据传输（HTTP 请求），这样就可使网页从服务器请求少量的信息，而不是整个页面。使用Ajax技术网页应用能够快速地将增量更新呈现在用户界面上，而不需要重载（刷新）整个页面，即在不需要刷新页面的情况下，就可以产生局部阅读全文

posted @ 2021-11-12 20:08 冰溏阅读(33) 评论(0) 推荐(0) 编辑

json.dump方法

摘要： jsonPython模块中的模块提供了一种称为dump()它将Python对象转换为适当的json对象。它是dumps()方法。二、json.dump()和json.dumps()的区别 json.dumps()是把python对象转换成json对象的一个过程，生成的是字符串。 json.dump 阅读全文

posted @ 2021-11-12 20:03 冰溏阅读(37410) 评论(0) 推荐(0) 编辑

requests模块介绍

摘要： requests模块： - urllib 模块：比较老 - requests 模块： requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。如何使用：（requests模块的编码流程） -- 指定url -- 发起请求阅读全文

posted @ 2021-11-11 23:11 冰溏阅读(124) 评论(0) 推荐(0) 编辑

http和https协议

摘要： http协议：就是服务器和客户端进行数据交互的一种形式。常用请求头信息： — User-Agent：请求载体的身份标识 — Conntection：请求完毕后，是断开连接还是保持连接常用响应头信息 — Content—Type：服务器响应回客户端的数据类型 https协议： — 安全的超文本阅读全文

posted @ 2021-11-11 20:51 冰溏阅读(37) 评论(0) 推荐(0) 编辑

爬虫使用场景分类

摘要：爬虫在使用场景中的分类：通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容增量式爬虫：检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。爬虫的矛与盾反爬机制：门户网站，可以通过制定相应的策略或者技术手段阅读全文

posted @ 2021-11-11 20:43 冰溏阅读(572) 评论(0) 推荐(0) 编辑

公告