摘要: pandas数据处理 1、删除重复元素 重复行判断 df.duplicated() # 重复行 显示为True,其他False (重复行第一次出现不为重复) keep : 默认first 从前往后看, last 从后往前看 (重复出现的行) subset=['B','C','D'] 默认对整行判断, 阅读全文
posted @ 2019-11-24 11:16 Deaseyy 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 一.pandas层次化索引 1. 创建多层行索引 (1) 隐式构造 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组: index = [['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七 阅读全文
posted @ 2019-11-24 11:15 Deaseyy 阅读(3301) 评论(0) 推荐(0) 编辑
摘要: 操作文件 使用pandas打开文件president_heights.csv 获取文件中的数据 heights = pd.read_csv('./president_heights.csv') data = heights['height(cm)'].values.copy() data.mean( 阅读全文
posted @ 2019-11-24 11:13 Deaseyy 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 轴 axis 正常情况 0 行, 1 列 聚合函数 0列, 1 行 import numpy as np np.__version__ #查看numpy版本 一.创建ndarray 1.使用np.array()由python list创建 l = [1,4,2,5,6] n = np.array(l 阅读全文
posted @ 2019-11-24 11:10 Deaseyy 阅读(568) 评论(0) 推荐(0) 编辑
摘要: xpath基本使用 一.安装lxml包 二.使用 1.使用: 1.获取最外面标签,遍历内部所有的子标签,获取标签文本 content_list =div.xpath('.//div[@class="d_post_content j_d_post_content "]/text()').extract 阅读全文
posted @ 2019-07-29 21:59 Deaseyy 阅读(750) 评论(0) 推荐(0) 编辑
摘要: 安装 使用 (以chrome浏览器为例) 1.导入: from selenium import webdriver 2.创建浏览器驱动对象 方法一: 将下载好的chrome浏览器驱动文件加入到python目录下 方法二:指定chrome浏览器驱动文件路径 3.打开浏览器网页访问url 打开网页: 关 阅读全文
posted @ 2019-07-29 21:58 Deaseyy 阅读(2602) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫 scrapy_redis使用 dupefilter去重: request_fingerpint() 请求指纹 使用haslib.sha1 对 request.method, request.url, request.headers, request.body 进行加密 40个字符的16进 阅读全文
posted @ 2019-07-29 21:57 Deaseyy 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 一.框架介绍 1.scrapy框架由五个部分组成: Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行 阅读全文
posted @ 2019-07-29 21:56 Deaseyy 阅读(267) 评论(0) 推荐(0) 编辑
摘要: # 反反爬虫相关机制 (有些些网站使用特定的不同程度的复杂性规则防止爬虫访问,绕过这些规则是困难和复杂的,有时可能需要特殊的基础设施,如果有疑问,请联系商业支持。) 来自于Scrapy官方文档描述:http://doc.scrapy.org/en/master/topics/practices.ht 阅读全文
posted @ 2019-07-29 21:54 Deaseyy 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 解析库BeautifulSoup4基本使用 一.安装 Beautiful Soup在解析时实际是依赖解析器的,它除了支持python标准库中的HTML解析器外还支持第三方解析器如lxml等,推荐使用lxml. 安装解析器: pip install lxml 二.基本使用 创建beautifulsou 阅读全文
posted @ 2019-07-29 21:52 Deaseyy 阅读(4867) 评论(0) 推荐(0) 编辑