会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
费弗里
数据科学玩家
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
16
17
18
19
20
21
22
23
24
···
26
下一页
2019年7月9日
(数据科学学习手札65)利用Python实现Shp格式向GeoJSON的转换
摘要: 一、简介 Shp格式是GIS中非常重要的数据格式,主要在Arcgis中使用,但在进行很多基于网页的空间数据可视化时,通常只接受GeoJSON格式的数据,众所周知JSON(JavaScript Object Nonation)是利用键值对+嵌套来表示数据的一种格式,以其轻量、易解析的优点,被广泛使用与
阅读全文
posted @ 2019-07-09 12:16 费弗里
阅读(3547)
评论(3)
推荐(2)
2019年7月6日
(数据科学学习手札64)在jupyter notebook中利用kepler.gl进行空间数据可视化
摘要: 一、简介 kepler.gl是由Uber开发的进行空间数据可视化的开源工具,是Uber内部进行空间数据可视化的默认工具,通过其面向Python开放的接口包keplergl,我们可以在jupyter notebook中通过书写Python代码的方式传入多种格式的数据,在其嵌入notebook的交互窗口
阅读全文
posted @ 2019-07-06 20:34 费弗里
阅读(7783)
评论(20)
推荐(3)
2019年7月5日
(数据科学学习手札63)利用pandas读写HDF5文件
摘要: 一、简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个HDF5可以看做一个高度整合的文件夹,其内部可存放不同类型的数据。在Python中操纵HDF5文件的方
阅读全文
posted @ 2019-07-05 20:59 费弗里
阅读(16529)
评论(3)
推荐(5)
2019年7月3日
(数据科学学习手札62)详解seaborn中的kdeplot、rugplot、distplot与jointplot
摘要: 一、简介 seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块,当我们想要探索单个或一对数据分布上的特征时,可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化,本文以jupyter notebook为编辑工具,针对seaborn中
阅读全文
posted @ 2019-07-03 22:15 费弗里
阅读(45100)
评论(17)
推荐(14)
2019年6月17日
(数据科学学习手札61)xpath进阶用法
摘要: 一、简介 xpath作为对网页、对xml文件进行定位的工具,速度快,语法简洁明了,在网络爬虫解析内容的过程中起到很大的作用,除了xpath的基础用法之外(可参考我之前写的(数据科学学习手札50)基于Python的网络数据采集-selenium篇),xpath中还存在着非常之多的进阶用法,本文将对笔者
阅读全文
posted @ 2019-06-17 10:59 费弗里
阅读(1219)
评论(0)
推荐(0)
2019年6月14日
(数据科学学习手札60)用Python实现WGS84、火星坐标系、百度坐标系、web墨卡托四种坐标相互转换
摘要: 一、简介 主流被使用的地理坐标系并不统一,常用的有WGS84、GCJ02(火星坐标系)、BD09(百度坐标系)以及百度地图中保存矢量信息的web墨卡托,本文利用Python编写相关类以实现4种坐标系统之间的互相转换。 二、代码及说明 import math class LngLatTransfer(
阅读全文
posted @ 2019-06-14 17:05 费弗里
阅读(3292)
评论(2)
推荐(2)
2019年6月5日
(数据科学学习手札59)从抓取数据到生成shp文件并展示
摘要: 一、简介 shp格式的文件是地理信息领域最常见的文件格式之一,很好的结合了矢量数据与对应的标量数据,而在Python中我们可以使用pyshp来完成创建shp文件的过程,本文将从如何从高德地图获取矢量信息开始,最终构造出相应的shp文件,并利用R中的leaflet进行可视化; 二、数据获取及清洗 2.
阅读全文
posted @ 2019-06-05 21:21 费弗里
阅读(4076)
评论(1)
推荐(4)
2019年5月29日
(数据科学学习手札58)在R中处理有缺失值数据的高级方法
摘要: 一、简介 在实际工作中,遇到数据中带有缺失值是非常常见的现象,简单粗暴的做法如直接删除包含缺失值的记录、删除缺失值比例过大的变量、用0填充缺失值等,但这些做法会很大程度上影响原始数据的分布或者浪费来之不易的数据信息,因此怎样妥当地处理缺失值是一个持续活跃的领域,贡献出众多巧妙的方法,在不浪费信息和不
阅读全文
posted @ 2019-05-29 21:56 费弗里
阅读(2283)
评论(0)
推荐(0)
2019年5月15日
(数据科学学习手札57)用ggplotly()美化ggplot2图像
摘要: 一、简介 经常利用Python进行数据可视化的朋友一定用过或听说过plotly这样的神器,我在(数据科学学习手札43)Plotly基础内容介绍中也曾做过非常详细的介绍,其渲染出的图像以浏览器为载体,非常精美,且绘制图像的自由程度堪比ggplot2,其为R也提供了接口,在plotly包中,但对于已经习
阅读全文
posted @ 2019-05-15 20:41 费弗里
阅读(3270)
评论(0)
推荐(0)
2019年3月28日
(数据科学学习手札56)利用机器学习破解大众点评文字反爬
摘要: 一、引言 爬取过大众点评的朋友应该会遇到这样的问题,在网页中看起来正常的文字,在其源代码中变成了下面这样: 究其原因,是因为大众点评在内容上设置的特别的反爬机制,与某些网站替换底层字体文件不同,大众点评使用随机替换的SVG图片来替换对应位置的汉字内容,使得我们使用常规的手段无法获取其网页中完整的文字
阅读全文
posted @ 2019-03-28 22:08 费弗里
阅读(1757)
评论(0)
推荐(5)
上一页
1
···
16
17
18
19
20
21
22
23
24
···
26
下一页
公告