随笔分类 -  爬虫

摘要:Python操作MySQL数据库 1、安装 pip install pymysql 2、连接数据库 使用connect函数创建连接对象,此连接对象提供关闭数据库、事务提交、事物回滚等操作。 import pymysql conn = pymysql.connect( host='127.0.0.1' 阅读全文
posted @ 2024-05-25 15:37 同淋雪 阅读(38) 评论(0) 推荐(0) 编辑
摘要:CSV文件存储 CSV是Comma Separated Values,称为逗号分隔值,一种以.csv结尾的文件,所有值都是字符串。 文件操作 示例 import csv with open('student.csv','a+',newline='') as file: # newline='' 表示 阅读全文
posted @ 2024-05-15 21:59 同淋雪 阅读(10) 评论(0) 推荐(0) 编辑
摘要:JSON文件存储 JSON是一种轻量级的数据交换格式,它是基于ECMAScript的一个子集; JSON在Python中分别由list和dict组成; 1、JSON模块的功能 函数 描述 json.dumps() 将python类型转换为字符串,返回一个str对象。实现把一个python对象编码转换 阅读全文
posted @ 2024-05-15 21:58 同淋雪 阅读(22) 评论(0) 推荐(0) 编辑
摘要:爬虫2(页面解析和数据提取) 处理HTML文件,常用Xpath,先将HTML文件转换成XML文档,然后用Xpath查找HTML节点或元素。 一、HTML与XML 二、XPath 1、XPath路径表达式 三、Lxml库 html = etree.HTML(text) # 将字符串转换成HTML格式 阅读全文
posted @ 2024-04-26 11:58 同淋雪 阅读(25) 评论(0) 推荐(0) 编辑
摘要:爬虫 1(入门基础) 一、什么是爬虫 通过编写代码,模拟正常用户使用浏览器的过程,使其能够在互联网自动进行数据抓取 二、HTTP协议 三、URL是什么 URL:资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法 四、Header请求头 五、请求头参数的含义 六、requ 阅读全文
posted @ 2024-04-26 11:55 同淋雪 阅读(8) 评论(0) 推荐(0) 编辑
摘要:PyQuery数据解析 1、导入 from pyquery import PyQuery 2、创建PyQuery对象 p = PyQuery("页面源代码") 3、定位 # 用法 a = p("css选择器") a = p("a") # 选择a标签 a = p("li")("a") # 选择li下的 阅读全文
posted @ 2023-04-12 16:22 同淋雪 阅读(53) 评论(0) 推荐(0) 编辑
摘要:xpath解析 xpath是一种在XML文档中査找信息的语言,可用来在XML文档中対元素和属性进行遍万。HTML 属于XML的一个子集。 1、导入 from lxml import etree # 如果导入报错,则使用以下方式 from lxml import html etree = html.e 阅读全文
posted @ 2023-04-11 22:01 同淋雪 阅读(79) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup数据解析 1、安装 pip install bs4 2、导入 from bs4 import BeautifulSoup 3、提取子页面的URL 子页面的URL如果开头是/,直接在前面拼接上域名 子页面的URL如果不是/开头,此时需要找到主页面的URL,去掉最后一个/后面的 阅读全文
posted @ 2023-04-11 22:00 同淋雪 阅读(50) 评论(0) 推荐(0) 编辑
摘要:初识爬虫 一、预备知识 协议:就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协定,常见的协议有TCP/IP,SOAP协议,HTTP协议,SMTP协议等等。 HTTP协议,中文名为“超文本传输协议”,是用万维网(WWW)服务器传输超文本到本地浏览器的传送协议。 1、请求 1 请求行 -> 请 阅读全文
posted @ 2023-04-10 17:25 同淋雪 阅读(31) 评论(0) 推荐(0) 编辑
摘要:正则表达式和re模块 一、正则表达式 1、常用元字符 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线 \s 匹配任意的空白符 \d 匹配任意的数字 \n 匹配一个换行符 \t 匹配一个制表符 ^ 匹配字符串的开始 $ 匹配字符串的结尾 \W 匹配非字母或数字或下划线 \D 匹配非数字 阅读全文
posted @ 2023-04-10 17:22 同淋雪 阅读(20) 评论(0) 推荐(0) 编辑
摘要:Pandas模块实现向Excel写入数据 import pandas as pd dfData = { # 用字典设置DataFrame所需数据 '序号':data[0], '项目':data[1], '数据':data[2] } # 创建DataFrame df = pd.DataFrame(df 阅读全文
posted @ 2023-04-10 17:18 同淋雪 阅读(143) 评论(0) 推荐(0) 编辑
摘要:xlsxwriter模块实现向Excel表写数据 导入第三方库 import xlsxwriter as xw 写数据 # 创建工作簿 workbook = xw.Workbook(filename) # 创建子表 worksheet1 = workbook.add_worksheet("sheet 阅读全文
posted @ 2023-04-10 17:14 同淋雪 阅读(148) 评论(0) 推荐(0) 编辑
摘要:openpyxl模块实现给Excel写入数据 一、安装OpenpyXl pip install OpenpyXl 使用时在代码内 from openpyxl import Workbook 或者 from openpyxl import load_workbook 前者可创建Excel文件,后者可加 阅读全文
posted @ 2023-04-10 17:08 同淋雪 阅读(2382) 评论(0) 推荐(0) 编辑
摘要:xlwt模块实现将数据写入Excel文件 一、安装xlwt库 pip install xlwt 安装完成后导入 import xlwt 二、创建excel表格类型文件 book = xlwt.Workbook(encoding='utf-8',style_compression=0) 调用xlwt模 阅读全文
posted @ 2023-04-10 16:54 同淋雪 阅读(267) 评论(0) 推荐(0) 编辑
摘要:Python读写txt文本 一、读取txt文本 常用的读取文件函数有三种read()、readline()、readlines() 打开文件后,需要记得加上关闭文件操作 file = open(path, encoding='utf-8', mode='r') listOfLines = file. 阅读全文
posted @ 2023-04-10 16:41 同淋雪 阅读(348) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示