摘要: wordcloud2函数说明 wordcloud2(data, size = 1, minSize = 0, gridSize = 0, fontFamily = NULL, fontWeight = 'normal', color = 'random-dark', backgroundColor  阅读全文
posted @ 2017-01-23 15:26 Little_Rookie 阅读(31172) 评论(0) 推荐(2) 编辑
摘要: 计算各种描述性统计量函数脚本(myDescriptStat.R)如下: 示例结果如下: > setwd("./&R笔记/整理")> source("myDescriptStat.R")> w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,5 阅读全文
posted @ 2016-12-23 15:22 Little_Rookie 阅读(1503) 评论(0) 推荐(0) 编辑
摘要: 最近遇到一个很头疼的事,就是 R语言读写中文编码方式。在网上找到了一篇博文,谢谢博主的精彩分享,让我很快解决了问题,在此也分享一下 R语言读写数据的方法很多,这里主要是我在使用read.csv/read.table和write.csv/write.table时遇到的一些中文格式编码的问题。常见的中文 阅读全文
posted @ 2016-12-22 16:35 Little_Rookie 阅读(29785) 评论(0) 推荐(0) 编辑
摘要: 在某些时候,需要在R画图中添加中文,但是默认情况下,R对中文的支持不好。 当用R画PDF图,并且图中有中文的时候,安装并加载如下包library(showtext)然后:showtext.auto(enable = TRUE)这句命令表示之后用上同样的字体。如果要添加字体:font.add('Sim 阅读全文
posted @ 2016-12-22 15:12 Little_Rookie 阅读(8640) 评论(0) 推荐(0) 编辑
摘要: 如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 安装;同理,为了方便索引,R中也以::表示了函数以及函数所在包的名字,如果不含::表示为R的默认包中就有,如含::,请使用 安装。 连接器与io 数据 阅读全文
posted @ 2016-12-21 18:09 Little_Rookie 阅读(5628) 评论(0) 推荐(0) 编辑
摘要: 1.利用R内置数据集iris; 2.通过Rserve 包连接tableau,服务器:localhost,默认端口6311; 3.加载数据集iris; 4.编辑字段:Cluster 5.该代码在R中的效果; 6.字段:Cluster_Result 7.最终效果图 转载:http://www.voidc 阅读全文
posted @ 2016-12-21 00:44 Little_Rookie 阅读(1780) 评论(0) 推荐(0) 编辑
摘要: 如何开始使用 Tableau 与 R? 对于已经熟悉 R 及其功能的用户而言,在 R 与 Tableau 之间建立连接非常简单。以 下说明适用于基于开源版 R 的新安装。其他一些方案也可能使用其他程序包,例如来自 Revolution Analytics 的程序包。 下载并安装 R。单击此处查找有关 阅读全文
posted @ 2016-12-21 00:43 Little_Rookie 阅读(4038) 评论(0) 推荐(0) 编辑
摘要: 关于 Tableau Tableau 帮助人们将数据转化为可以付诸行动的见解。探索无所不能的可视化分析。只需点击几下即可构建仪表板,进行即兴分析。 Tableau与R对比: 1.从开发的角度讲,Tableau开发上手容易效率高,只要有excel的基础,1天内Tableau就可以出门,并且对数据的导入 阅读全文
posted @ 2016-12-20 16:31 Little_Rookie 阅读(2280) 评论(0) 推荐(0) 编辑
摘要: 1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少 阅读全文
posted @ 2016-12-16 00:59 Little_Rookie 阅读(106276) 评论(0) 推荐(2) 编辑
摘要: Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,我们可以将购买的 阅读全文
posted @ 2016-12-15 23:17 Little_Rookie 阅读(60182) 评论(0) 推荐(2) 编辑
摘要: 用Excel做回归分析的详细步骤 一、什么是回归分析法 “回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法: 回归分析是对 阅读全文
posted @ 2016-12-15 22:11 Little_Rookie 阅读(145604) 评论(0) 推荐(9) 编辑
摘要: 常用图形的适用场景、优势、劣势 柱形图:适用场景:它的适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较。优势:柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。劣势:柱状图的局限在于只适用中小规模的数据集。 折线图: 适用场景: 折线图适合二维的大 阅读全文
posted @ 2016-12-15 20:24 Little_Rookie 阅读(8901) 评论(0) 推荐(0) 编辑
摘要: 漏斗图适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题所在。在网站分析中,通常用于转化率比较,它不仅能展示用户从进入网站到实现购买的最终转化率,还可以展示每个步骤的转化率,如图9-91所示。 图9-91 使用漏斗图展示的网站客户转化率 漏斗图不 阅读全文
posted @ 2016-12-15 19:02 Little_Rookie 阅读(14145) 评论(0) 推荐(0) 编辑
摘要: 文中的图表只是方便以后记忆,故不详,具体细节没有截图保存,详细了解的,请自行百度 阅读全文
posted @ 2016-12-15 18:54 Little_Rookie 阅读(1072) 评论(0) 推荐(0) 编辑
摘要: 雷达图的作用 雷达图是专门用来进行多指标体系比较分析的专业图表。从雷达图中可以看出指标的实际值与参照值的偏离程度,从而为分析者提供有益的信息。雷达图一般用于成绩展示、效果对比量化、多维数据对比等等,只要有前后2组3项以上数据均可制作雷达图,其展示效果非常直观,而且图像清晰耐看,而且通过EXCEL 2 阅读全文
posted @ 2016-12-15 18:52 Little_Rookie 阅读(26253) 评论(0) 推荐(0) 编辑
摘要: 使用场景:一项市场调查研究中,男性和女性、赞同和反对、满意和不满意的两方面的消费者,他们在某些项目上的指标分布特性一项产品组合决策中,乐观场景和悲观场景下各产品的获利情况一个产品试销活动中,不同门店渠道使用不同的折扣率,销量与折扣率的是否存在比例关系等 文中的金字塔条形图只是方便以后记忆,故不详,具 阅读全文
posted @ 2016-12-15 18:45 Little_Rookie 阅读(6608) 评论(0) 推荐(0) 编辑
摘要: 在Excel中插入饼图时有时会遇到这种情况,饼图中的一些数值具有较小的百分比,将其放到同一个饼图中难以看清这些数据,这时使用复合条饼图就可以提高小百分比的可读性。 文中的复合饼图只是方便以后记忆,故不详,详细了解的,请自行百度 阅读全文
posted @ 2016-12-15 18:40 Little_Rookie 阅读(2244) 评论(0) 推荐(0) 编辑
摘要: 用户PERSONA的含义: P 代表基本性(Primary research)指该用户角色是否基于对真实用户的情景访谈E 代表移情性(Empathy)指用户角色中包含姓名、照片和产品相关的描述,该用户角色是否引起同理心。 R 代表真实性(Realistic)指对那些每天与顾客打交道的人来说,用户角色 阅读全文
posted @ 2016-12-15 11:25 Little_Rookie 阅读(15047) 评论(0) 推荐(1) 编辑
摘要: 一、CART决策树模型概述(Classification And Regression Trees) 决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节点表示树选择那几个变量(属性)作为划分,每棵树的叶节点表示为一个类的标号,树的最顶层为根节点。 决策树是 阅读全文
posted @ 2016-12-13 18:01 Little_Rookie 阅读(45132) 评论(1) 推荐(0) 编辑
摘要: 在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价、身高、GDP、学生成绩等,发现这些被预测的变量都属于连续型变量。然而有些情况下,被预测变量可能是二元变量,即成功或失败、流失或不流失、涨或跌等,对于这类问题,线性回归将束手无策。这个时候就需要另一种回归方法进行预测,即Logi 阅读全文
posted @ 2016-12-13 17:06 Little_Rookie 阅读(187077) 评论(2) 推荐(8) 编辑
摘要: 如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘的知识,你,或许会有柳暗花明的感 阅读全文
posted @ 2016-12-13 01:15 Little_Rookie 阅读(27698) 评论(1) 推荐(2) 编辑
摘要: 含有x和y这两个变量的线性回归是所有回归分析中最常见的一种;而且,在描述它们关系的时候,也是最有效、最容易假设的一种模型。然而,有些时候,它的实际情况下某些潜在的关系是非常复杂的,不是二元分析所能解决的,而这时,我们需要多项式回归分析来找到这种隐藏的关系。 让我们看一下经济学里的一个例子:假设你要买 阅读全文
posted @ 2016-12-12 16:36 Little_Rookie 阅读(24894) 评论(0) 推荐(0) 编辑
摘要: 转载:http://blog.fens.me/r-multi-linear-regression/ 前言 本文接上一篇R语言解读一元线性回归模型。在许多生活和工作的实际问题中,影响因变量的因素可能不止一个,比如对于知识水平越高的人,收入水平也越高,这样的一个结论。这其中可能包括了因为更好的家庭条件, 阅读全文
posted @ 2016-12-06 19:05 Little_Rookie 阅读(14898) 评论(1) 推荐(0) 编辑
摘要: 转载自:http://blog.fens.me/r-linear-regression/ 前言 在我们的日常生活中,存在大量的具有相关性的事件,比如大气压和海拔高度,海拔越高大气压强越小;人的身高和体重,普遍来看越高的人体重也越重。还有一些可能存在相关性的事件,比如知识水平越高的人,收入水平越高;市 阅读全文
posted @ 2016-12-06 18:58 Little_Rookie 阅读(41612) 评论(1) 推荐(0) 编辑
摘要: mysql方法来源于:http://www.cnblogs.com/jjcc/p/5896588.html ###在网上看到一篇,非常赞的方法### 比如说要获取班级的前3名,mysql就可以用GROUP_CONCAT + GROUP BY + substring_index实现。 考试表 DROP 阅读全文
posted @ 2016-12-04 18:26 Little_Rookie 阅读(5436) 评论(0) 推荐(1) 编辑
摘要: 假设一个数据集有n个样本,每个样本有m个特征,样本标签y为{0, 1}。 数据集可表示为: 其中,x(ij)为第i个样本的第j个特征值,y(i)为第i个样本的标签。 X矩阵左侧的1相当于回归方程的常数项。 每个特征有一个权重(或系数),权重矩阵为: 开始可以将权重均初始化为1。 将特征及权重分别相乘 阅读全文
posted @ 2016-12-02 14:59 Little_Rookie 阅读(5252) 评论(1) 推荐(0) 编辑
摘要: ggfortify 有着简单易用的统一的界面来用一行代码来对许多受欢迎的R软件包结果进行二维可视化的一个R工具包。这让许多的统计学家以及数据科学家省去了许多繁琐和重复的过程,不用对结果进行任何处理就能以 {ggplot} 的风格画出好看的图,大大地提高了工作的效率。 虽然ggfortify已经在CR 阅读全文
posted @ 2016-11-30 23:43 Little_Rookie 阅读(1727) 评论(0) 推荐(0) 编辑
摘要: 执行数据库查询时,有完整查询和模糊查询之分。一般模糊语句如下:SELECT 字段 FROM 表 WHERE 某字段 Like 条件 其中关于条件,SQL提供了四种匹配模式:1、%:表示任意0个或多个字符。可匹配任意类型和长度的字符,有些情况下若是中文,请运用两个百分号(%%)表示。比如 SELECT 阅读全文
posted @ 2016-11-30 22:42 Little_Rookie 阅读(95189) 评论(0) 推荐(4) 编辑
摘要: 首先,将网上下载下来的资料直接粘贴到记事本,再从记事本复制/粘贴到 Word 文档。这个过程能够自动删除一些空白行,而且还能将文档中的换行符全部转化为回车符(段落标记)。接着,删除多余的行。在编辑菜单上按替换按钮(或同时按键盘上的 Ctrl 和 H 键),打开查找和替换对话框。 选择替换选项卡,单击 阅读全文
posted @ 2016-11-30 18:58 Little_Rookie 阅读(10634) 评论(0) 推荐(0) 编辑
摘要: 》navicat premium 快捷键1.ctrl+q 打开查询窗口2.ctrl+/ 注释sql语句3.ctrl+shift +/ 解除注释4.ctrl+r 运行查询窗口的sql语句5.ctrl+shift+r 只运行选中的sql语句6.F6 打开一个mysql命令行窗口7.ctrl+l 删除一行 阅读全文
posted @ 2016-11-30 16:38 Little_Rookie 阅读(5662) 评论(0) 推荐(2) 编辑
摘要: MySQL有4个函数是用来进行条件操作的,这些函数可以实现SQL的条件逻辑,允许开发者将一些应用程序业务逻辑转换到数据库后台。 MySQL控制流函数: CASE WHEN[test1] THEN [result1]...ELSE [default] END如果testN是真,则返回resultN,否 阅读全文
posted @ 2016-11-30 16:13 Little_Rookie 阅读(1622) 评论(0) 推荐(0) 编辑
摘要: Mysql 按年、季度、月分组 按月度分组: select DATE_FORMAT(i.created_at, '%Y-%m月')...................GROUP BY DATE_FORMAT(i.created_at, '%Y-%m') 按季度分组: select CONCAT(Y 阅读全文
posted @ 2016-11-30 15:59 Little_Rookie 阅读(2180) 评论(0) 推荐(0) 编辑
摘要: Excel通过身份证获取出生年月,性别,年龄,生肖,星座,省份等信息总结归纳 早期的身份证号码为15位数字,现在使用的身份证号码为18位数字,它们的含义如下:(1)15位:1-6位为地区代码,7-8位为出生年份(2位),9-10位为出生月份,11-12位为出生日期,第13-15位为顺序号,这3位奇数 阅读全文
posted @ 2016-11-28 21:17 Little_Rookie 阅读(4929) 评论(0) 推荐(1) 编辑
摘要: 数据挖掘方法及应用: 图表注意事项 • 信息完整:图表标题、单位、图例、脚注、来源等 • 避免无意义的图表 • 一表反映一个观点 • 只选对的不选复杂的图表 • 标题一句话阐述清楚反映观点 确定对比关系: ►同一类别不同项目间的对比 ►不同类别不同项目间的对比 ►时间对比:把时间作为项目分类的标准 阅读全文
posted @ 2016-11-24 23:37 Little_Rookie 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: 方法1:=IF(ISERROR(FIND("-",A1)),"","-")&MID(SUM(MID(101&A1,2+LARGE(ISNUMBER(-MID(1&A1,COLUMN(1:1),1))COLUMN(1:1),ROW($1:$50)),1)10^ROW($2:$51))%,2,15) 方 阅读全文
posted @ 2016-11-24 23:26 Little_Rookie 阅读(12555) 评论(0) 推荐(0) 编辑
摘要: 一篇说尽Excel常见函数用法 Word,PPT,Excel这三个Office软件是职场办公里最常用的三个软件,但是我发现简书上写PPT的教程多,Excel的少,即使有,也是零零散散。因为Excel的系统庞大其实你如果耐心钻研下去的话,发现excel难度不亚于任何专业软件的难度。总体来说,excel 阅读全文
posted @ 2016-11-24 18:43 Little_Rookie 阅读(3407) 评论(0) 推荐(0) 编辑
摘要: RStudio中,出现中文乱码问题的解决方案解决步骤:1、设置RStudio文本显示的默认编码:RStudio菜单栏的Tools -> Global Options2、选择General -> Default Text Encoding,点击Change:3、在弹出的编码中,选择UTF-8编码。4、 阅读全文
posted @ 2016-11-24 18:39 Little_Rookie 阅读(94890) 评论(1) 推荐(3) 编辑
摘要: 参考内容: RMySQL数据库编程指南R语言使用RMySQL连接及读写Mysql数据库 RMySql包安装和加载优点问题,试着根据提示简单安装和加载可以使用,后续再查询资料解决。 3.2.1 连接数据库 dbConnect(MySQL(),host="localhost",dbname,user=" 阅读全文
posted @ 2016-11-23 02:20 Little_Rookie 阅读(7838) 评论(0) 推荐(0) 编辑
摘要: 统计学上分布有很多,在R中基本都有描述。因能力有限,我们就挑选几个常用的、比较重要的简单介绍一下每种分布的定义,公式,以及在R中的展示。 统计分布每一种分布有四个函数:d――density(密度函数),p――分布函数,q――分位数函数,r――随机数函数。比如,正态分布的这四个函数为dnorm,pno 阅读全文
posted @ 2016-11-23 00:12 Little_Rookie 阅读(104672) 评论(0) 推荐(5) 编辑
摘要: 1.变量变换 as.array(x),as.data.frame(x),as.numeric(x),as.logical(x),as.complex(x),as.character(x),...转换变量类型;使用如下命令可得到全部列表,methods(as) factor():将一个向量转化为一个因 阅读全文
posted @ 2016-11-22 14:25 Little_Rookie 阅读(39822) 评论(0) 推荐(0) 编辑