2018年7月5日

数据规整

摘要: 1.丢弃指定轴上的数据 删除第二列 2.函数映射 Numpy的ufunc也可以用于操作pandas对象。 例如:np.fabs(frame) DataFrame.apply DataFrame.apply(func, axis=0, broadcast=None, raw=False, reduce 阅读全文

posted @ 2018-07-05 13:30 么么唧唧 阅读(160) 评论(0) 推荐(0) 编辑

pandas数据清洗

摘要: 一.处理缺省值 DataFrame.dropna DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)[source] return DataFrame with NA entries dropped 阅读全文

posted @ 2018-07-05 09:11 么么唧唧 阅读(374) 评论(0) 推荐(0) 编辑

2018年7月4日

numpy和pandas axis的差异

摘要: 1.numpy numpy.sum(a, axis=None, dtype=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)[source] Sum of array elements over a given axis. a : 阅读全文

posted @ 2018-07-04 19:03 么么唧唧 阅读(538) 评论(0) 推荐(0) 编辑

2018年7月2日

numpy

摘要: 参考文档:https://docs.scipy.org/doc/numpy/reference/ https://yiyibooks.cn/xx/NumPy_v111/index.html pip install numpy import numpy as np 一.实例化 1.list实例化一个数 阅读全文

posted @ 2018-07-02 20:20 么么唧唧 阅读(189) 评论(0) 推荐(0) 编辑

2018年6月30日

scrapy分布式爬虫设置

摘要: #启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #默认请求序列化使 阅读全文

posted @ 2018-06-30 12:16 么么唧唧 阅读(670) 评论(0) 推荐(0) 编辑

scrapy spider及其子类

摘要: 1.spider传参 在运行 crawl 时添加 -a 可以传递Spider参数: Spider在构造器(constructor)中获取参数: 2.class scrapy.spider.Spider 常用方法:name allowed_domains start_urls custom_setti 阅读全文

posted @ 2018-06-30 12:14 么么唧唧 阅读(203) 评论(0) 推荐(0) 编辑

2018年6月29日

mongo命令

摘要: mongo show dbs use xxdb show collectons db.xxtable.count() db.xxtable,dataSize() db.xxtable.drop() db.xxtable.dropIndex(name) db.xxtable.dropIndexs() 阅读全文

posted @ 2018-06-29 12:54 么么唧唧 阅读(128) 评论(0) 推荐(0) 编辑

2018年6月26日

初试scrapy

摘要: 需求:抓取http://quotes.toscrape.com/中quote,author,tags,保存到MongoDB中 环境:pycharm scrapy流程图: 1,建立工程scrapy startproject toscrapy 2.创建spider cd toscrapy scrapy 阅读全文

posted @ 2018-06-26 16:10 么么唧唧 阅读(127) 评论(0) 推荐(0) 编辑

scrapy安装

摘要: 1,Windows安装方式 需要升级pip,然后pip install scrapy 或者pip install wheel,lxml,pyopenssl 安装pyopenssl https://pypi.python.org/pypi/pyOpenSSL/17.5.0 安装Twisted http 阅读全文

posted @ 2018-06-26 15:44 么么唧唧 阅读(115) 评论(0) 推荐(0) 编辑

2018年6月23日

python re.sub

摘要: 1. 参数说明:pattern模式字符串,可以数字命名也可以name命名(\g<1>==\1)(?P<name> \g<name>) repl 替换的字符串也可以是函数 string源串 count替换的次数 flag的值为: 2.实例 阅读全文

posted @ 2018-06-23 14:36 么么唧唧 阅读(716) 评论(0) 推荐(0) 编辑

导航