• 博客园logo
  • 会员
  • 周边
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






簌小颜

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

09 2021 档案

 
爬取红薯小说网
该文被密码保护。
posted @ 2021-09-29 23:25 簌小颜 阅读(0) 评论(0) 推荐(0)
爬取实例及自动化测试工具Selenuim模块
摘要:爬取城市名称: 1 import requests 2 from lxml import etree 3 4 # 1.发送请求获取页面数据 5 res = requests.get("https://www.aqistudy.cn/historydata/", 6 headers={ 7 'User 阅读全文
posted @ 2021-09-28 21:25 簌小颜 阅读(97) 评论(0) 推荐(0)
Xpath解析器
摘要:Xpath解析器: # 效率很高 使用广泛 """ 该选择器可以做到一句话完成多步操作 """ # 1.导入Xpath所在模块 from lxml import etree # 2.将带匹配的文本传入etree生成一个对象 html = etree.HTML(doc) # 3.Xpath解析器主要功 阅读全文
posted @ 2021-09-27 23:45 簌小颜 阅读(65) 评论(0) 推荐(0)
爬取并写入文件实例
摘要:爬取链接二手房数据并写入文件: 1.先研究单页数据的爬取 2.再研究如何写入文件 3.最后研究多页数据的爬取 '''一定要将复杂的功能拆分成多个简单的小步骤''' # 先来分析网址 https://sh.lianjia.com/ershoufang/ 省市 https://sh.lianjia.co 阅读全文
posted @ 2021-09-26 20:20 簌小颜 阅读(87) 评论(0) 推荐(0)
Openpyxl模块
摘要:简介: """1.excel文件的后缀名针对版本的不同 是不同的 03版本之前: .xls 03版本之后: .xlsx2.在python能够操作excel表格的模块有很多 openpyxl模块 该模块可以操作03版本的之后的文件 针对03版本之前的兼容性可能不太好 xlrd、xlwt模块 xlrd控 阅读全文
posted @ 2021-09-26 19:55 簌小颜 阅读(85) 评论(0) 推荐(0)
爬取梨视频多页视频数据(配图教学)
摘要:# 全部代码,需先安装以下需要插入的模块 import requests from bs4 import BeautifulSoup import os import time if not os.path.exists(r'梨视频数据'): os.mkdir(r'梨视频数据') def get_v 阅读全文
posted @ 2021-09-23 20:49 簌小颜 阅读(116) 评论(0) 推荐(0)
爬取实例
摘要:使用正则爬取红牛分公司数据: # 插入模块 import requestsimport re # 1.朝页面发送get请求获取页面数据res = requests.get("http://www.redbull.com.cn/about/branch") # 2.分析数据特征 书写相应正则 # 2. 阅读全文
posted @ 2021-09-23 00:35 簌小颜 阅读(63) 评论(0) 推荐(0)
bs4模块及爬取实例
摘要:昨日作业:爬取北京新发地蔬菜价格表: """思路""" # 打开网页# 1.拿到页面后分析数据加载方式# 2.发现并不是直接加载的# 右键网页空白处,检查,network,然后点击fetch/xhr筛选动态获取数据的地址和请求方式# 然后点击url一栏,按下回车,便会出现一条数据 import re 阅读全文
posted @ 2021-09-21 21:54 簌小颜 阅读(360) 评论(0) 推荐(0)
爬取网站练习
摘要:数据加载方式(重要): 1.常见的加载方式: 朝服务器发请求 页面数据直接全部返回并加载"""如何验证数据是直接加载还是其他方式 浏览器空白处鼠标右键 点击查看网页源码 在源码界面搜索对应的数据 如果能收到就表示该数据是直接加载的(你可以直接发送相应请求获取)""" 2.内部js代码请求: 先加载一 阅读全文
posted @ 2021-09-17 23:37 簌小颜 阅读(103) 评论(0) 推荐(0)
Cookie与Session
摘要:Cookie与Session: # cookie与session的发明是专门用来解决http协议无状态的特点 http协议无状态 >>>: 不保存用户端状态(记不住) '''早期的网址不需要保存用户状态 所有人访问都是相同的数据''' 随着时代的发展越来越多的网址需要保存用户状态(记住你) Cook 阅读全文
posted @ 2021-09-16 15:34 簌小颜 阅读(62) 评论(0) 推荐(0)
爬虫模块及演练
摘要:re模块: import re s = """eva jason tony yuan jason jason jason a"""# ret = re.findall('j.*?n', s) # 返回所有满足匹配条件的结果,放在列表里# print(ret)"""findall(正则,文本数据) 在 阅读全文
posted @ 2021-09-15 15:25 簌小颜 阅读(42) 评论(0) 推荐(0)
网页代码基础
摘要:特殊符号: 空格 &nbsp;> &gt;< &lt;& &amp;¥ &yen;版权 &copy;注册 &reg; 常用标签: <a href="https://www.sogo.com">链接标签</a> href参数后面写网址 用户点击即可跳转到该网页 <img src="111.png" a 阅读全文
posted @ 2021-09-14 20:24 簌小颜 阅读(333) 评论(0) 推荐(0)
爬虫分类及网页组成
摘要:常见收集数据网站(白嫖类): 百度指数:https://index.baidu.com/v2/index.html#/ # 通过关键词查询,然后进去可以选择时间段来查看 新浪指数:https://data.weibo.com/index # 通过微信扫码查询(暂时维护) 国家数据:http://ww 阅读全文
posted @ 2021-09-13 23:28 簌小颜 阅读(446) 评论(0) 推荐(0)
PymySQL
摘要:PyMySQL其他操作: import pymysql conn = pymysql.connect( host='127.0.0.1', port=3306, user='root', password='123', # 支持简写passwd database='db6', # 支持简写db ch 阅读全文
posted @ 2021-09-13 00:18 簌小颜 阅读(73) 评论(0) 推荐(0)
多表查询练习和pymysql
摘要:数据导入: Navicat Premium Data Transfer Source Server : localhost Source Server Type : MySQL Source Server Version : 50624 Source Host : localhost Source 阅读全文
posted @ 2021-09-09 23:02 簌小颜 阅读(40) 评论(0) 推荐(0)
MySQL多表查询理论
摘要:首先是对于查询的补充 分为以下四种: 1.group_concat()方法 分组之后 用于获取除分组以外其他的数据 也可以在括号内获取其他数据 并用逗号或者分割符隔开 2.concat()方法 用于分组之前 3.concat_ws()方法 用于分组之前 多个字段相同分隔符情况、 4.as语法 在这里 阅读全文
posted @ 2021-09-09 00:07 簌小颜 阅读(43) 评论(0) 推荐(0)