徐-清风
进步在于--总结
摘要: 环境 win8, python3.7, pycharm 正文 1.Scrapy框架的安装 在cmd命令行窗口执行: pip install Scrapy 即可完成Scrapy框架的安装 2. 创建Scrapy项目 在cmd命令行窗口下切换到想要的目录下, 我这里是C:\Users\Administr 阅读全文
posted @ 2018-10-15 16:21 徐-清风 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, 二的基础上继续总结. 前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matpl 阅读全文
posted @ 2018-10-01 22:33 徐-清风 阅读(5980) 评论(0) 推荐(0) 编辑
摘要: 昨天学习pandas和matplotlib的过程中, 在jupyter notebook遇到ImportError: matplotlib is required for plotting错误, 以下是解决该问题的具体描述, 在此记录, 给后面学习的朋友提供一个参考. 环境 win8.1, pyth 阅读全文
posted @ 2018-09-29 18:52 徐-清风 阅读(13071) 评论(0) 推荐(1) 编辑
摘要: 本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表df 1 import pandas as pd 2 3 df = pd.DataFrame({"地 阅读全文
posted @ 2018-09-27 20:13 徐-清风 阅读(4741) 评论(0) 推荐(0) 编辑
摘要: 本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘 1. 重复值的处理 利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID. 1 import pandas as pd 2 df = pd.DataFrame({"ID": ["A 阅读全文
posted @ 2018-09-26 16:26 徐-清风 阅读(6288) 评论(0) 推荐(0) 编辑
摘要: 本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索", 则跳转到"男装"的搜索界面. 2. 空白处"右击"再点击"检查"审查网页元素, 点击"Network". 1) 找到对应的URL, 阅读全文
posted @ 2018-09-17 20:12 徐-清风 阅读(1089) 评论(0) 推荐(0) 编辑
摘要: 本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页 2. get请求 阅读全文
posted @ 2018-09-13 21:24 徐-清风 阅读(2166) 评论(0) 推荐(0) 编辑
摘要: 本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程 正文 目标站点分析 通过对目标站点的分析, 来确定网页结构, 进一步确定具体的抓取方式. 1. 浏览器打开猫眼电影首页, 点击"榜单", 点击"Top100榜", 阅读全文
posted @ 2018-09-11 20:24 徐-清风 阅读(10958) 评论(0) 推荐(0) 编辑