Deaseyy

2019年11月24日

摘要： pandas数据处理 1、删除重复元素重复行判断 df.duplicated() # 重复行显示为True,其他False (重复行第一次出现不为重复) keep : 默认first 从前往后看, last 从后往前看 (重复出现的行) subset=['B','C','D'] 默认对整行判断, 阅读全文

posted @ 2019-11-24 11:16 Deaseyy 阅读(412) 评论(0) 推荐(0) 编辑

pandas层次化索引和拼接

摘要：一.pandas层次化索引 1. 创建多层行索引 (1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组: index = [['一班', '一班', '一班', '二班', '二班', '二班'], ['张三', '李四', '王五', '赵六', '田七阅读全文

posted @ 2019-11-24 11:15 Deaseyy 阅读(3301) 评论(0) 推荐(0) 编辑

pandas基础

摘要：操作文件使用pandas打开文件president_heights.csv 获取文件中的数据 heights = pd.read_csv('./president_heights.csv') data = heights['height(cm)'].values.copy() data.mean( 阅读全文

posted @ 2019-11-24 11:13 Deaseyy 阅读(229) 评论(0) 推荐(0) 编辑

numpy基本使用

摘要：轴 axis 正常情况 0 行, 1 列聚合函数 0列, 1 行 import numpy as np np.__version__ #查看numpy版本一.创建ndarray 1.使用np.array()由python list创建 l = [1,4,2,5,6] n = np.array(l 阅读全文

posted @ 2019-11-24 11:10 Deaseyy 阅读(568) 评论(0) 推荐(0) 编辑

2019年7月29日

xpath基本使用

摘要： xpath基本使用一.安装lxml包二.使用 1.使用: 1.获取最外面标签，遍历内部所有的子标签，获取标签文本 content_list =div.xpath('.//div[@class="d_post_content j_d_post_content "]/text()').extract 阅读全文

posted @ 2019-07-29 21:59 Deaseyy 阅读(750) 评论(0) 推荐(0) 编辑

selenium基本使用

摘要：安装使用 (以chrome浏览器为例) 1.导入: from selenium import webdriver 2.创建浏览器驱动对象方法一: 将下载好的chrome浏览器驱动文件加入到python目录下方法二:指定chrome浏览器驱动文件路径 3.打开浏览器网页访问url 打开网页: 关阅读全文

posted @ 2019-07-29 21:58 Deaseyy 阅读(2602) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要：分布式爬虫 scrapy_redis使用 dupefilter去重: request_fingerpint() 请求指纹使用haslib.sha1 对 request.method, request.url, request.headers, request.body 进行加密 40个字符的16进阅读全文

posted @ 2019-07-29 21:57 Deaseyy 阅读(206) 评论(0) 推荐(0) 编辑

scrapy框架基本使用

摘要：一.框架介绍 1.scrapy框架由五个部分组成: Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等 Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行阅读全文

posted @ 2019-07-29 21:56 Deaseyy 阅读(267) 评论(0) 推荐(0) 编辑

scrapy反反爬虫

摘要： # 反反爬虫相关机制 (有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。) 来自于Scrapy官方文档描述：http://doc.scrapy.org/en/master/topics/practices.ht 阅读全文

posted @ 2019-07-29 21:54 Deaseyy 阅读(631) 评论(0) 推荐(0) 编辑

BeautifulSoup4基本使用

摘要：解析库BeautifulSoup4基本使用一.安装 Beautiful Soup在解析时实际是依赖解析器的，它除了支持python标准库中的HTML解析器外还支持第三方解析器如lxml等,推荐使用lxml. 安装解析器: pip install lxml 二.基本使用创建beautifulsou 阅读全文

posted @ 2019-07-29 21:52 Deaseyy 阅读(4867) 评论(0) 推荐(0) 编辑

公告