会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Ryana
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2017年9月28日
爬虫实例:饿了么爬虫
摘要: 饿了么外卖网站是一个ajax动态加载的网站 Version1:直接页面提取 问题:根据//*[@class="place-rstbox clearfix"]xpath提取成功,但是rez输出为空 Version2:通过接口提取 geohash=ws101hcw982&latitude=22.5272
阅读全文
posted @ 2017-09-28 17:35 Ryana
阅读(9322)
评论(3)
推荐(1)
编辑
2017年9月22日
爬虫实例:中国日报高频词汇爬虫
摘要: 最近偶然打开一个英文网站,仔细一看原来是中国日报的英文版本,本着培养语感的想法多看看英语新闻,奈何水平渣渣,机智如我想到了爬取文章高频词汇,废话少说,看下文: 爬取中国日报全网所有文章链接 1.用bs4获取所有含有href属性的a标签 输出: 2.正则提取符合要求的链接 输出: 3.完整源码如下:
阅读全文
posted @ 2017-09-22 16:43 Ryana
阅读(2153)
评论(0)
推荐(0)
编辑
2017年9月18日
爬虫实例:今日头条爬虫
摘要: 今日头条是一个js动态加载的网站,尝试了两种方式爬取,一是页面直接提取,一是通过接口提取: version1:直接页面提取 问题:title = tree.xpath('//a[@class="link title"]/text()')提取内容失败,用xpath check插件提取成功 versio
阅读全文
posted @ 2017-09-18 13:41 Ryana
阅读(19757)
评论(0)
推荐(1)
编辑
2017年9月12日
特殊类型的列表切片
摘要: 遇到了一种类型奇怪的列表,如['ISBN;"Book-Title";"Book-Author";"Year-Of-Publication";"Publisher";"Image-URL-S";"Image-URL-M";"Image-URL-L"'],现想取引号内的值,索引行不通,正则太无语,折腾了
阅读全文
posted @ 2017-09-12 17:37 Ryana
阅读(226)
评论(0)
推荐(0)
编辑
2017年9月11日
练习:万达院线股价分析
摘要: 万达院线股价分析 数据来源:新浪财经、腾讯财经、上交所和深交所 分析时间:2017/9/11 分析目的:分析维度练习 数据采集 1.基本面数据 2.历史行情 数据分析 频率分析 1.可视化维度信息 2.计算收益分布 注:收益分布图两段趋平,暂时还没搞清楚是什么原因 探索性分析 1.分析均价、收盘价、
阅读全文
posted @ 2017-09-11 14:57 Ryana
阅读(596)
评论(0)
推荐(0)
编辑
2017年9月9日
MongoDB基本用法
摘要: MongoDB是一个基于分布式文件存储的开源数据库系统。将数据存储为一个文档,数据结构由键值(key=>value)对组成。 MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。 启动MongoDB服务 cmd进入F:\MongoDB\3.4\bin目录下,输入启动命
阅读全文
posted @ 2017-09-09 12:38 Ryana
阅读(370)
评论(0)
推荐(0)
编辑
2017年9月2日
数据可视化利器pyechart和matplotlib比较
摘要: python中用作数据可视化的工具有多种,其中matplotlib最为基础。故在工具选择上,图形美观之外,操作方便即上乘。 本文着重说明常见图表用基础版matplotlib和改良版pyecharts作图间的差异 一、maplotlib 基本用法如下: 可能遇到的问题: 1.axes[ ][ ]前面的
阅读全文
posted @ 2017-09-02 13:11 Ryana
阅读(8075)
评论(0)
推荐(0)
编辑
练习:微信好友分析
摘要: 来源:http://www.cnblogs.com/jiaoyu121/p/6944398.html 1.好友性别分布 输出: 可视化 输出 2.好友个性签名 输出: 可视化 输出 3.自动回复 输出:
阅读全文
posted @ 2017-09-02 12:25 Ryana
阅读(346)
评论(0)
推荐(0)
编辑
2017年8月31日
数据分析中常用数据类型转换总结
摘要: 数据结构是计算机存储和组织数据的方式。Python中有三类四种内建的数据结构,分别是序列(List、Tuple)、映射(Dictionary)以及集合(Set)。 此外,数据分析库Numpy和Pandas还提供了ndarry、Series、DataFrame等数据类型,不同的数据类型在程序中会常常遇
阅读全文
posted @ 2017-08-31 15:11 Ryana
阅读(1037)
评论(0)
推荐(0)
编辑
2017年8月20日
pandas深入理解
摘要: Pandas是一个Python库,旨在通过“标记”和“关系”数据以完成数据整理工作,库中有两个主要的数据结构Series和DataFrame 本文主要说明完成数据整理的几大步骤: 1.数据来源 1)加载数据 2)随机采样 2.数据清洗 0)数据统计(贯穿整个过程) 1)处理缺失值 2)层次化索引 3
阅读全文
posted @ 2017-08-20 15:24 Ryana
阅读(2816)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
下一页