Mr_Cxy

导航

2018年2月25日 #

tests

摘要: test 阅读全文

posted @ 2018-02-25 23:03 Mr_Cxy 阅读(257) 评论(0) 推荐(0) 编辑

2017年2月12日 #

Python 2.7_多进程获取简书专题数据(一)

摘要: 学python几个月了正好练练手,发现问题不断提高,先从专题入手,爬取些数据,一开始对简书网站结构不熟悉,抓取推荐,热门,城市3个导航栏,交流发现推荐和热门是排序不同,url会重复,以及每个专题详情页三个类目最新评论,最新收录, 热门也会重复 做了下调整,代码执行完毕会返回所有专题的urls元组对象 阅读全文

posted @ 2017-02-12 15:40 Mr_Cxy 阅读(703) 评论(0) 推荐(0) 编辑

2017年2月7日 #

python2.7 爬取简书30日热门专题文章之简单分析_20170207

摘要: 昨天在简书上写了用Scrapy抓取简书30日热门文章,对scrapy是刚接触,跨页面抓取以及在pipelines里调用settings,连接mysql等还不是很熟悉,今天依旧以单独的py文件区去抓取数据。同时简书上排版不是很熟悉,markdown今天刚下载还没来得及调试,以后会同步更新 简书文章:h 阅读全文

posted @ 2017-02-07 23:35 Mr_Cxy 阅读(309) 评论(0) 推荐(0) 编辑

2017年1月29日 #

Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129

摘要: 大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1、构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(str(i) for i in range(0, 226, 25))] 2、模块 requests获取网 阅读全文

posted @ 2017-01-29 17:28 Mr_Cxy 阅读(1596) 评论(0) 推荐(0) 编辑

2017年1月23日 #

mysql_union all 纵向合并建表_20170123

摘要: 年前事情比较多,博客不能每天更新了。 1、union all 纵向建表和left join 横向建表的数据结构区别 先贴代码 后面再补充 阅读全文

posted @ 2017-01-23 10:59 Mr_Cxy 阅读(477) 评论(0) 推荐(0) 编辑

2017年1月18日 #

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118

摘要: 上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫 需要了解xpath语法 学习了下拿这个例子练手 1、爬取的单页面还是这个rooturl:http://blog.csdn.net/column/details/why-bug.html 2、用requests的 get 阅读全文

posted @ 2017-01-18 21:15 Mr_Cxy 阅读(252) 评论(0) 推荐(0) 编辑

2017年1月16日 #

MySQL_截止昨日南京市所有在职业务员业绩排名-20170116

摘要: #计算南京销售员总业绩排名 数据结果已打乱处理 #职工信息表包含在职和离职两种状态 因此不能以这表当做主表 不然离职人的数据也会出现 以毛利表为主表 销售员限制在昨天在职的销售范围内 且和后面left join的表销售人员保持一致 取出相应其他字段 #@i:=@i+1增长变量 阅读全文

posted @ 2017-01-16 23:10 Mr_Cxy 阅读(292) 评论(0) 推荐(0) 编辑

2017年1月14日 #

Python 2.7_爬取妹子图网站单页测试图片_20170114

摘要: 1、url= http://www.mzitu.com/74100/x,2为1到23的值 2、用到模块 os 创建文件目录; re模块正则匹配目录名 图片下载地址; time模块 限制下载时间;requests模块获取网页源代码;urllib模块 urllib.urlretrieve(图片url,保 阅读全文

posted @ 2017-01-14 13:03 Mr_Cxy 阅读(264) 评论(0) 推荐(0) 编辑

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114

摘要: 年前有点忙,没来的及更博,最近看爬虫正则的部分 巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程 解析url获得网站源代码 3.找到文章标题列表和文章url(a标签下’href'属性)组成列表 4.for循环取出 # 阅读全文

posted @ 2017-01-14 10:02 Mr_Cxy 阅读(276) 评论(0) 推荐(0) 编辑

2016年12月29日 #

Python 2.7_pandas连接MySQL数据处理_20161229

摘要: 在我本地Mysql_local_db数据库建立了一个pandas数据表用来对pandas模块的学习 学习过程借鉴学习蓝鲸的网站分析笔记 1、创建表 2、Kettle导入测试数据 对数据进行了处理 3、执行SQL查询数据 4、Pycharm中编写代码 用pandas模块进行连接MySQL数据库 num 阅读全文

posted @ 2016-12-29 22:58 Mr_Cxy 阅读(430) 评论(0) 推荐(0) 编辑