摘要: 0.安装环境 Windows10,Python3.5.1,IPython,jupyter notebook,and other functionality 官方安装文档Linux版3.x 官方安装文档列表,包含3.x2.x等等 1.下载Python最新版(3.5.1版链接)(根据机器位数下载如64位 阅读全文
posted @ 2016-11-22 09:54 Little_Rookie 阅读(6466) 评论(0) 推荐(0) 编辑
摘要: 转自:Python多进程编程 阅读目录 1. Process 2. Lock 3. Semaphore 4. Event 5. Queue 6. Pipe 7. Pool 序. multiprocessingpython中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在pyth 阅读全文
posted @ 2016-11-21 17:38 Little_Rookie 阅读(929) 评论(0) 推荐(0) 编辑
摘要: R语言基础:数组和列表 数组(array) 一维数据是向量,二维数据是矩阵,数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的. 数组函数是array(),语法是:array(dadta, dim),其中data必须是同一类型的数据,dim是各维的长度组成的向量。 1、产生一个三维和四维数组 阅读全文
posted @ 2016-11-21 16:07 Little_Rookie 阅读(23527) 评论(0) 推荐(0) 编辑
摘要: 1.数据错误: 错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• ‘0’ 代表真实的0,还是代表缺失– 数据不一致• 比如收入单位是万元,利润单位是元,或者一个单位是美元,一个是人民币– 数据重复 2.缺失值处理: 处理原则–缺失值少于20%•连续变量使用均值或中位数填 阅读全文
posted @ 2016-11-21 15:27 Little_Rookie 阅读(22633) 评论(2) 推荐(2) 编辑
摘要: 转自:http://shujuren.org/article/45.html 在数据分析过程中最头疼的应该是如何应付脏数据,脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误,所以必须谨慎的处理那些脏数据。 脏数据的存在形式主要有如下几种情况: 1)缺失值 2)异常值 3)数据的不一致性 下面就 阅读全文
posted @ 2016-11-21 13:59 Little_Rookie 阅读(3800) 评论(1) 推荐(0) 编辑
摘要: lubridate包,非常强大,能够识别各种类型的日期.字符型和时间型数据,都是格式比较特别的你数据,在处理时,比较麻烦,但是有了lubridate这个包之后,时间处理变得非常简单,这个包函数命名简单,格式比较统一. lubridate包,非常强大,能够识别各种类型的日期.字符型和时间型数据,都是格 阅读全文
posted @ 2016-11-20 22:08 Little_Rookie 阅读(2617) 评论(0) 推荐(0) 编辑
摘要: %>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存 %>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存 符号%>%,这是 阅读全文
posted @ 2016-11-18 18:54 Little_Rookie 阅读(6845) 评论(0) 推荐(0) 编辑
摘要: python matplotlib 中文显示参数设置 方法一:每次编写代码时进行参数设置 #coding:utf-8import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcP 阅读全文
posted @ 2016-11-17 18:54 Little_Rookie 阅读(10203) 评论(1) 推荐(0) 编辑
摘要: 语法: SELECT 属性列表 FROM 表名或视图名 [ WHERE 条件表达式1 ] [ GROUP BY 属性名1 [ HAVING 条件表达式2 ] [ WITH ROOLUP ] ] [ ORDER BY 属性名2 [ ASC|DESC ] ]条件表达式1:指定查询条件条件表达式2:满足该 阅读全文
posted @ 2016-11-17 17:32 Little_Rookie 阅读(960) 评论(0) 推荐(0) 编辑
摘要: #批量运行包:all.pcg <- c("data.table","ggplot2","rmarkdown","tidyr","stringr","ggfortify") sapply(all.pcg, library, character.only = T) req.pcg <- function 阅读全文
posted @ 2016-11-17 16:47 Little_Rookie 阅读(848) 评论(0) 推荐(0) 编辑
摘要: Rmarkdown用法与R语言动态报告数据分析用R语言非常便捷,因为R语言的社区强大,并且在不断更新和完善,提供了各种分析利器。Knitr和Rmarkdown包则是数据分析中的动态报告利器。 下面是一份输出HTML文档的Rmd文件。备忘 # 一级标题(#+空格+文字) ## 二级标题(##+空格+文 阅读全文
posted @ 2016-11-17 16:44 Little_Rookie 阅读(32144) 评论(2) 推荐(2) 编辑
摘要: 1. stringr介绍 stringr包被定义为一致的、简单易用的字符串工具集。所有的函数和参数定义都具有一致性,比如,用相同的方法进行NA处理和0长度的向量处理。 字符串处理虽然不是R语言中最主要的功能,却也是必不可少的,数据清洗、可视化等的操作都会用到。对于R语言本身的base包提供的字符串基 阅读全文
posted @ 2016-11-17 16:14 Little_Rookie 阅读(46956) 评论(0) 推荐(5) 编辑
摘要: tidyr包:reshape2的替代者,功能更纯粹 tidyr包的应用 tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能;gather和spread函数将数据在长格式和宽格式之间相互转化,应用在比如稀疏矩阵和稠密矩阵之间的转化;separate和union方法提供了 阅读全文
posted @ 2016-11-17 16:14 Little_Rookie 阅读(20151) 评论(0) 推荐(1) 编辑
摘要: R之data.table -melt/dcast(数据拆分和合并) 写在前面:数据整形的过程确实和揉面团有些类似,先将数据通过melt()函数将数据揉开,然后再通过dcast()函数将数据重塑成想要的形状 reshape2包: melt-把宽格式数据转化成长格式。 cast-把长格式数据转化成宽格式 阅读全文
posted @ 2016-11-17 16:08 Little_Rookie 阅读(39306) 评论(0) 推荐(2) 编辑
摘要: R语言data.table速查手册 介绍 R中的data.table包提供了一个data.frame的高级版本,让你的程序做数据整型的运算速度大大的增加。data.table已经在金融,基因工程学等领域大放光彩。他尤其适合那些需要处理大型数据集(比如 1GB 到100GB)需要在内存中处理数据的人。 阅读全文
posted @ 2016-11-17 16:02 Little_Rookie 阅读(27978) 评论(0) 推荐(2) 编辑
摘要: 相比dplyr包,data.table包能够更大程度地提高数据的处理速度,这里就简单介绍一下data.tale包的使用方法。 data.table:用于快速处理大数据集的哦 数据的读取 data.table包中数据读取的函数:fread() data.table的创建 library(data.ta 阅读全文
posted @ 2016-11-17 16:01 Little_Rookie 阅读(6611) 评论(0) 推荐(0) 编辑
摘要: 正则表达式 正则表达式是对字符串类型数据进行匹配判断,提取等操作的一套逻辑公式。 处理字符串类型数据方面,高效的工具有Perl和Python。如果我们只是偶尔接触文本处理任务,则学习Perl无疑成本太高;如果常用Python,则可以利用成熟的正则表达式模块:re库; 如果常用R,则使用Hadley大 阅读全文
posted @ 2016-11-15 23:44 Little_Rookie 阅读(1692) 评论(1) 推荐(1) 编辑
摘要: 一,布局 R绘图所占的区域,被分成两大部分,一是外围边距,一是绘图区域。 外围边距可使用par()函数中的oma来进行设置。比如oma=c(4,3,2,1),就是指外围边距分别为下边距:4行,左边距3行,上边距2行,右边距1行。很明显这个设置顺序是从x轴开始顺时针方向。这里的行是指可以显示1行普通字 阅读全文
posted @ 2016-11-15 14:25 Little_Rookie 阅读(9075) 评论(1) 推荐(1) 编辑
摘要: 一页多图 介绍 ggplot2.multiplot是一个易于使用的功能,将多个图形在同一页面上使用R统计软件和GGPLOT2绘图方法。这个功能是从easyGgplot2包。 介绍 ggplot2.multiplot是一个易于使用的功能,将多个图形在同一页面上使用R统计软件和GGPLOT2绘图方法。这 阅读全文
posted @ 2016-11-15 12:45 Little_Rookie 阅读(21070) 评论(0) 推荐(1) 编辑
摘要: 为什么用Shiny Shiny让数据分析师写完分析与可视化代码后,稍微再花几十分钟,就可以把分析代码工程化,将分析成果快速转化为交互式网页分享给别人。所以,如果你是一名使用R的数据分析师,选择Shiny是非常明智的,因为它不需要你有新的技能,且开发起来实在太快。它跟通常我们了解的其他框架不一样:其他 阅读全文
posted @ 2016-11-14 01:50 Little_Rookie 阅读(8537) 评论(0) 推荐(0) 编辑
摘要: DT包:查看矩阵或数据框的内容 DT包提供大量UI定制功能,即修改展示的HTML、CSS和js。 阅读全文
posted @ 2016-11-14 01:28 Little_Rookie 阅读(2280) 评论(0) 推荐(0) 编辑
摘要: plotly包:让ggplot2的静态图片变得可交互 Plotly 是个交互式可视化的第三方库,官网提供了Python,R,Matlab,JavaScript,Excel的接口,因此我们可以很方便地在这些软件中调用Plotly,从而实现交互式的可视化绘图。 plotly支持facet,不过当face 阅读全文
posted @ 2016-11-14 01:26 Little_Rookie 阅读(9902) 评论(0) 推荐(0) 编辑
摘要: dplyr包:plyr包的替代者,专门面对数据框,将ddplyr转变为更易用的接口 %>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存,可惜的是应用范围还不是很广。 dplyr和data.table(易于操作数 阅读全文
posted @ 2016-11-14 01:24 Little_Rookie 阅读(15131) 评论(0) 推荐(0) 编辑
摘要: 分析数据要做的第一件事情,就是观察它。对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活性ggpl 阅读全文
posted @ 2016-11-13 19:31 Little_Rookie 阅读(114783) 评论(4) 推荐(9) 编辑
摘要: 我们先来说个老生常谈的情景:某天你去买芒果,小贩摊了满满一车芒果,你一个个选好,拿给小贩称重,然后论斤付钱。 自然,你的目标是那些最甜最成熟的芒果,那怎么选呢?你想起来,啊外婆说过,明黄色的比淡黄色的甜。你就设了条标准:只选明黄色的芒果。于是按颜色挑好、付钱、回家。啊哈,人生完整了? 呵呵呵。 告诉 阅读全文
posted @ 2016-11-13 19:02 Little_Rookie 阅读(42803) 评论(0) 推荐(5) 编辑
摘要: 摘要 在正则表达式中,如果直接给出字符,就是精确匹配。 {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况 在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2,4}? 只匹配 2 个 a。 在正则表达式中,如果直接给出字符,就是精确匹配。 {m,n}? 对于 阅读全文
posted @ 2016-11-13 17:16 Little_Rookie 阅读(2527) 评论(0) 推荐(0) 编辑
摘要: 归一化处理 数据降维 数据规约产生更小但保持数据完整性的新数据集。在规约后的数据集上进行数据分析和挖掘将更有效率。 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表 阅读全文
posted @ 2016-11-13 17:11 Little_Rookie 阅读(4237) 评论(0) 推荐(0) 编辑
摘要: PS:本文适用SQL Server2008语法。 一、关系型数据库和SQL 实际上准确的讲,SQL是一门语言,而不是一个数据库。 什么是SQL呢?简而言之,SQL就是维护和使用关系型数据库中的的数据的一种标准的计算机语言。 1.1 SQL语言主要有3个主要的组成部分。 DML(Data Manipu 阅读全文
posted @ 2016-11-13 17:02 Little_Rookie 阅读(2162) 评论(0) 推荐(1) 编辑
摘要: 原文链接:Step by step approach to perform data analysis using Python 译文链接:使用Python一步一步地来进行数据分析--By Michael翔 你已经决定来学习Python,但是你之前没有编程经验。因此,你常常对从哪儿着手而感到困惑,这 阅读全文
posted @ 2016-11-13 16:54 Little_Rookie 阅读(127616) 评论(5) 推荐(16) 编辑
摘要: 建议:如果只是处理(小)数据的,用R。结果更可靠,速度可以接受,上手方便,多有现成的命令、程序可以用。要自己搞个算法、处理大数据、计算量大的,用python。开发效率高,一切尽在掌握。 概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data 阅读全文
posted @ 2016-11-13 15:59 Little_Rookie 阅读(19047) 评论(1) 推荐(3) 编辑
摘要: 在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。 机器学习中的逼近目标函数过程 监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y=f(X) 这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。 从训练数据中学习目标函数的过程 阅读全文
posted @ 2016-11-13 15:33 Little_Rookie 阅读(33291) 评论(1) 推荐(2) 编辑
摘要: 机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最 阅读全文
posted @ 2016-11-13 14:52 Little_Rookie 阅读(2600) 评论(0) 推荐(1) 编辑
摘要: Python中的pandas模块进行数据分析。 接下来pandas介绍中将学习到如下8块内容:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用panda 阅读全文
posted @ 2016-11-13 13:52 Little_Rookie 阅读(197084) 评论(10) 推荐(42) 编辑
摘要: Python模块中的numpy,这是一个处理数组的强大模块,而该模块也是其他数据分析模块(如pandas和scipy)的核心。 接下面将从这5个方面来介绍numpy模块的内容: 1)数组的创建 2)有关数组的属性和函数 3)数组元素的获取--普通索引、切片、布尔索引和花式索引 4)统计函数与线性代数 阅读全文
posted @ 2016-11-13 13:41 Little_Rookie 阅读(27383) 评论(3) 推荐(10) 编辑