随笔档案「2021年9月」 - 簌小颜

该文被密码保护。

posted @ 2021-09-29 23:25 簌小颜阅读(0) 评论(0) 推荐(0)

摘要：爬取城市名称： 1 import requests 2 from lxml import etree 3 4 # 1.发送请求获取页面数据 5 res = requests.get("https://www.aqistudy.cn/historydata/", 6 headers={ 7 'User 阅读全文

posted @ 2021-09-28 21:25 簌小颜阅读(121) 评论(0) 推荐(0)

Xpath解析器

摘要：Xpath解析器: # 效率很高使用广泛 """ 该选择器可以做到一句话完成多步操作 """ # 1.导入Xpath所在模块 from lxml import etree # 2.将带匹配的文本传入etree生成一个对象 html = etree.HTML(doc) # 3.Xpath解析器主要功阅读全文

posted @ 2021-09-27 23:45 簌小颜阅读(79) 评论(0) 推荐(0)

爬取并写入文件实例

摘要：爬取链接二手房数据并写入文件： 1.先研究单页数据的爬取 2.再研究如何写入文件 3.最后研究多页数据的爬取 '''一定要将复杂的功能拆分成多个简单的小步骤''' # 先来分析网址 https://sh.lianjia.com/ershoufang/ 省市 https://sh.lianjia.co 阅读全文

posted @ 2021-09-26 20:20 簌小颜阅读(95) 评论(0) 推荐(0)

Openpyxl模块

摘要：简介： """1.excel文件的后缀名针对版本的不同是不同的 03版本之前: .xls 03版本之后: .xlsx2.在python能够操作excel表格的模块有很多 openpyxl模块该模块可以操作03版本的之后的文件针对03版本之前的兼容性可能不太好 xlrd、xlwt模块 xlrd控阅读全文

posted @ 2021-09-26 19:55 簌小颜阅读(98) 评论(0) 推荐(0)

爬取梨视频多页视频数据（配图教学）

摘要：# 全部代码，需先安装以下需要插入的模块 import requests from bs4 import BeautifulSoup import os import time if not os.path.exists(r'梨视频数据'): os.mkdir(r'梨视频数据') def get_v 阅读全文

posted @ 2021-09-23 20:49 簌小颜阅读(136) 评论(0) 推荐(0)

爬取实例

摘要：使用正则爬取红牛分公司数据： # 插入模块 import requestsimport re # 1.朝页面发送get请求获取页面数据res = requests.get("http://www.redbull.com.cn/about/branch") # 2.分析数据特征书写相应正则 # 2. 阅读全文

posted @ 2021-09-23 00:35 簌小颜阅读(82) 评论(0) 推荐(0)

bs4模块及爬取实例

摘要：昨日作业：爬取北京新发地蔬菜价格表： """思路""" # 打开网页# 1.拿到页面后分析数据加载方式# 2.发现并不是直接加载的# 右键网页空白处，检查，network，然后点击fetch/xhr筛选动态获取数据的地址和请求方式# 然后点击url一栏，按下回车，便会出现一条数据 import re 阅读全文

posted @ 2021-09-21 21:54 簌小颜阅读(374) 评论(0) 推荐(0)

爬取网站练习

摘要：数据加载方式（重要）： 1.常见的加载方式：朝服务器发请求页面数据直接全部返回并加载"""如何验证数据是直接加载还是其他方式浏览器空白处鼠标右键点击查看网页源码在源码界面搜索对应的数据如果能收到就表示该数据是直接加载的(你可以直接发送相应请求获取)""" 2.内部js代码请求：先加载一阅读全文

posted @ 2021-09-17 23:37 簌小颜阅读(121) 评论(0) 推荐(0)

Cookie与Session

摘要：Cookie与Session： # cookie与session的发明是专门用来解决http协议无状态的特点 http协议无状态 >>>: 不保存用户端状态（记不住） '''早期的网址不需要保存用户状态所有人访问都是相同的数据''' 随着时代的发展越来越多的网址需要保存用户状态(记住你) Cook 阅读全文

posted @ 2021-09-16 15:34 簌小颜阅读(76) 评论(0) 推荐(0)

爬虫模块及演练

摘要：re模块： import re s = """eva jason tony yuan jason jason jason a"""# ret = re.findall('j.*?n', s) # 返回所有满足匹配条件的结果,放在列表里# print(ret)"""findall(正则,文本数据) 在阅读全文

posted @ 2021-09-15 15:25 簌小颜阅读(54) 评论(0) 推荐(0)

网页代码基础

摘要：特殊符号：空格  > >< <& &¥ ¥版权 ©注册 ® 常用标签： <a href="https://www.sogo.com">链接标签</a> href参数后面写网址用户点击即可跳转到该网页 <img src="111.png" a 阅读全文

posted @ 2021-09-14 20:24 簌小颜阅读(339) 评论(0) 推荐(0)

爬虫分类及网页组成

摘要：常见收集数据网站（白嫖类）：百度指数:https://index.baidu.com/v2/index.html#/ # 通过关键词查询，然后进去可以选择时间段来查看新浪指数:https://data.weibo.com/index # 通过微信扫码查询（暂时维护）国家数据:http://ww 阅读全文

posted @ 2021-09-13 23:28 簌小颜阅读(477) 评论(0) 推荐(0)

PymySQL

摘要：PyMySQL其他操作： import pymysql conn = pymysql.connect( host='127.0.0.1', port=3306, user='root', password='123', # 支持简写passwd database='db6', # 支持简写db ch 阅读全文

posted @ 2021-09-13 00:18 簌小颜阅读(81) 评论(0) 推荐(0)

多表查询练习和pymysql

摘要：数据导入： Navicat Premium Data Transfer Source Server : localhost Source Server Type : MySQL Source Server Version : 50624 Source Host : localhost Source 阅读全文

posted @ 2021-09-09 23:02 簌小颜阅读(44) 评论(0) 推荐(0)

MySQL多表查询理论

摘要：首先是对于查询的补充分为以下四种： 1.group_concat()方法分组之后用于获取除分组以外其他的数据也可以在括号内获取其他数据并用逗号或者分割符隔开 2.concat()方法用于分组之前 3.concat_ws()方法用于分组之前多个字段相同分隔符情况、 4.as语法在这里阅读全文

posted @ 2021-09-09 00:07 簌小颜阅读(58) 评论(0) 推荐(0)

09 2021 档案