Ryana - 博客园

2017年9月28日

摘要：饿了么外卖网站是一个ajax动态加载的网站 Version1:直接页面提取问题：根据//*[@class="place-rstbox clearfix"]xpath提取成功，但是rez输出为空 Version2:通过接口提取 geohash=ws101hcw982&latitude=22.5272 阅读全文

posted @ 2017-09-28 17:35 Ryana 阅读(9430) 评论(3) 推荐(1)

2017年9月22日

爬虫实例：中国日报高频词汇爬虫

摘要：最近偶然打开一个英文网站，仔细一看原来是中国日报的英文版本，本着培养语感的想法多看看英语新闻，奈何水平渣渣，机智如我想到了爬取文章高频词汇，废话少说，看下文：爬取中国日报全网所有文章链接 1.用bs4获取所有含有href属性的a标签输出： 2.正则提取符合要求的链接输出： 3.完整源码如下：阅读全文

posted @ 2017-09-22 16:43 Ryana 阅读(2277) 评论(0) 推荐(0)

2017年9月18日

爬虫实例：今日头条爬虫

摘要：今日头条是一个js动态加载的网站，尝试了两种方式爬取，一是页面直接提取，一是通过接口提取： version1：直接页面提取问题：title = tree.xpath('//a[@class="link title"]/text()')提取内容失败，用xpath check插件提取成功 versio 阅读全文

posted @ 2017-09-18 13:41 Ryana 阅读(20012) 评论(0) 推荐(1)

2017年9月12日

特殊类型的列表切片

摘要：遇到了一种类型奇怪的列表，如['ISBN;"Book-Title";"Book-Author";"Year-Of-Publication";"Publisher";"Image-URL-S";"Image-URL-M";"Image-URL-L"']，现想取引号内的值，索引行不通，正则太无语，折腾了阅读全文

posted @ 2017-09-12 17:37 Ryana 阅读(232) 评论(0) 推荐(0)

2017年9月11日

练习：万达院线股价分析

摘要：万达院线股价分析数据来源：新浪财经、腾讯财经、上交所和深交所分析时间：2017/9/11 分析目的：分析维度练习数据采集 1.基本面数据 2.历史行情数据分析频率分析 1.可视化维度信息 2.计算收益分布注：收益分布图两段趋平，暂时还没搞清楚是什么原因探索性分析 1.分析均价、收盘价、阅读全文

posted @ 2017-09-11 14:57 Ryana 阅读(633) 评论(0) 推荐(0)

2017年9月9日

MongoDB基本用法

摘要： MongoDB是一个基于分布式文件存储的开源数据库系统。将数据存储为一个文档，数据结构由键值(key=>value)对组成。 MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档，数组及文档数组。启动MongoDB服务 cmd进入F:\MongoDB\3.4\bin目录下，输入启动命阅读全文

posted @ 2017-09-09 12:38 Ryana 阅读(388) 评论(0) 推荐(0)

2017年9月2日

数据可视化利器pyechart和matplotlib比较

摘要： python中用作数据可视化的工具有多种，其中matplotlib最为基础。故在工具选择上，图形美观之外，操作方便即上乘。本文着重说明常见图表用基础版matplotlib和改良版pyecharts作图间的差异一、maplotlib 基本用法如下：可能遇到的问题： 1.axes[ ][ ]前面的阅读全文

posted @ 2017-09-02 13:11 Ryana 阅读(8273) 评论(0) 推荐(0)

练习：微信好友分析

摘要：来源：http://www.cnblogs.com/jiaoyu121/p/6944398.html 1.好友性别分布输出：可视化输出 2.好友个性签名输出：可视化输出 3.自动回复输出：阅读全文

posted @ 2017-09-02 12:25 Ryana 阅读(365) 评论(0) 推荐(0)

2017年8月31日

数据分析中常用数据类型转换总结

摘要：数据结构是计算机存储和组织数据的方式。Python中有三类四种内建的数据结构，分别是序列（List、Tuple）、映射（Dictionary）以及集合（Set）。此外，数据分析库Numpy和Pandas还提供了ndarry、Series、DataFrame等数据类型，不同的数据类型在程序中会常常遇阅读全文

posted @ 2017-08-31 15:11 Ryana 阅读(1090) 评论(0) 推荐(0)

2017年8月20日

pandas深入理解

摘要： Pandas是一个Python库，旨在通过“标记”和“关系”数据以完成数据整理工作，库中有两个主要的数据结构Series和DataFrame 本文主要说明完成数据整理的几大步骤： 1.数据来源 1）加载数据 2）随机采样 2.数据清洗 0）数据统计（贯穿整个过程） 1）处理缺失值 2）层次化索引 3 阅读全文

posted @ 2017-08-20 15:24 Ryana 阅读(2910) 评论(0) 推荐(0)