摘要: pandas是基于numpy包扩展而来的,因而numpy的绝大多数方法在pandas中都能适用。 pandas中我们要熟悉两个数据结构Series 和DataFrame Series是类似于数组的对象,它有一组数据和与之相关的标签组成。 结果为: 0 21 52 83 9dtype: int64 结 阅读全文
posted @ 2016-10-02 22:22 molearner 阅读(6887) 评论(0) 推荐(0) 编辑
摘要: 在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率, 类似于R的向量化操作,是的数据的操作趋于简单化,在python 中是使用numpy模块可以进行数组和矢量计算。 下面来看下简单的例子 结果: [2 5 6 8 3] 结果: [[2 5 6 8 3] [0 1 2 3 4]] 阅读全文
posted @ 2016-10-02 15:33 molearner 阅读(37717) 评论(0) 推荐(0) 编辑
摘要: 爬虫,即网络爬虫,像是在网络上爬行的一直蜘蛛,在互联网这张大网上不同的节点爬,如果它遇到符合条件的资源,它就会把内容抓取下来。 换句话说,爬虫程序我们可以理解为,如何控制程序定位到相应的资源,并把它抓取下来。 就如我们所知道的那样,爬虫通常是网页内容,因而这个过程中爬虫是如何获取网页信息,是通过UR 阅读全文
posted @ 2016-09-22 15:48 molearner 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 利用sp_addlinkeserver 进行远程数据库连接可以把多个数据库的数据,放置到一个数据库中, 或者有设置操作权限的情况下,我们可以通过这种方式进行查询,备份数据等操作。 首先,我们要创建连接 执行 sp_addlinkedserver 进行连接创建,具体操作如下 EXEC sp_addli 阅读全文
posted @ 2016-09-22 11:20 molearner 阅读(1640) 评论(0) 推荐(0) 编辑
摘要: 继续来了解dplyr中的其他有用函数 1、sample() 目的是可以从一个数据框中,随机抽取一些行,然后组成新的数据框。 sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame()) sample_frac(t 阅读全文
posted @ 2016-08-17 20:38 molearner 阅读(1651) 评论(0) 推荐(0) 编辑
摘要: 接下来我们继续了解一些dplyr中的常用函数。 1、ranking 以下各个函数可以实现对数据进行不同的排序 row_number(x) ntile(x, n) min_rank(x) dense_rank(x) percent_rank(x) cume_dist(x) 具体的看些例子。 row_n 阅读全文
posted @ 2016-08-13 20:55 molearner 阅读(2579) 评论(0) 推荐(0) 编辑
摘要: 接下了我们继续了解dplyr中有用的函数 1、if_else() if_else主要用于在数据做判断用 以上结果是对数据框中第3和第4列数据进行判断后显示的。 2、lead()和lag() lead(x, n = 1L, default = NA, order_by = NULL, ...) lag 阅读全文
posted @ 2016-08-11 16:03 molearner 阅读(3143) 评论(0) 推荐(0) 编辑
摘要: 继上一节常用函数,继续了解其他函数 1、desc() 这个函数和SQL中的排序用法是一样的,表示对数据进行倒序排序。 接下来我们看些例子。 在使用desc后是直接在数据前面加上一个负号,一般情况下配合arrange()函数一起使用,功能强大。 2、distinct() 跟SQL中distinct函数 阅读全文
posted @ 2016-08-10 15:54 molearner 阅读(1151) 评论(0) 推荐(0) 编辑
摘要: 上面介绍完dplyr中,几个主要的操作函数后,我们再进一步了解dplyr中那些函数可能我们会经常要用到。 这里主要根据dplyr包作者的书籍目录来把它列出来。 1、add_rownames 添加行名称,把数据转换成列。 add_rownames(df, var = "rowname") 下面来看个具 阅读全文
posted @ 2016-08-08 22:59 molearner 阅读(3118) 评论(1) 推荐(0) 编辑
摘要: 在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述。 不同的是summarise()更加的灵活多变,下面来看下summarise这个函数 summarise(.data, ...) 其灵活性和其他dplyr函数一样,主要 阅读全文
posted @ 2016-08-06 15:03 molearner 阅读(32534) 评论(0) 推荐(0) 编辑