摘要: 爬虫基础——静态网页与动态网页 在爬虫前应首先名确待爬取的页面是静态的,还是动态的,只有确定了页面类型,才方便后续对网页进行分析和程序编写。对于不同的网页类型,编写爬虫程序时所使用的方法也不尽相同 静态网页 静态网页是标准的 HTML 文件,通过 GET 请求方法可以直接获取,文件的扩展名是.htm 阅读全文
posted @ 2022-09-26 15:12 小杨的冥想课 阅读(381) 评论(0) 推荐(0) 编辑
摘要: pandas基础知识 pandas的数据结构 Series Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型 Series 由索引(index)和列组成,函数如下: Series只能输出一个一维表格 pandas.Series( data, ind 阅读全文
posted @ 2022-09-26 14:45 小杨的冥想课 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 从pdf中抽取数据到excel 在日常工作中遇到需要批量处理的pdf表格,并将表格中的数据批量处理至excel中,以水质监测的报告为例 import os import pdfplumber import numpy as np import pandas as pd import xlwings 阅读全文
posted @ 2022-09-26 14:38 小杨的冥想课 阅读(289) 评论(0) 推荐(0) 编辑