随笔 - 31  文章 - 15 评论 - 8 阅读 - 97114
< 2025年4月 >
30 31 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 1 2 3
4 5 6 7 8 9 10

  最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoophivestorm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。

  我们对大数据以及大数据分析完全没有头绪,我们甚至对大数据技术产生了迷茫,产生了退缩。

  当我们拿到数据应该怎么做呢,如果不知道怎么做,那就先进行探索性分析吧。

  分析数据可以分为探索和验证两个阶段。探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。

  探索性分析一般表现为直方图和茎叶图。探索性数据分析的基本工具是图、制表和汇总统计量。一般来说,探索性数据分析是一种系统性分析数据的方法,它展示了所有变量的分布情况、时间序列数据和变换变量,利用散列矩阵图展示了变量两两之间的关系,并且得到了所有的汇总统计量。换句话说,就是要计算均值、最大值、最小值、上下四分位数和确定异常值。

  说了那么多,那就来个例子吧。并给出R语言和spss实现。

     附件的数据共有5列,分别为:年龄、性别、广告次数、点击次数和是否登录。

R语言的实现:

 1 root="F:/dds_datasets/dds_ch2_nyt/"
 2 setwd(root)
 3 file<-paste(root,"nyt1.csv",sep="")
 4 nytdata<-read.csv(file)
 5 head(nytdata)
 6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf))
 7 summary(nytdata)
 8 
 9 install.packages("doBy")
10 library("doBy")
11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))}
12 summaryBy(Age~agecat,data=nytdata,FUN=siterange)
13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata)
14 ##先画出直方图图
15 
16 install.packages("ggplot2")
17 library("ggplot2")
18 
19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram()
20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()
View Code

 分析结果如下:

spss实现比较简单,通过向导导入数据,选择 分析-数据描述-探索就行了。

我也是码农中的一员,大数据对我来讲我也是初学者,前段时间开始学习R语言,感兴趣的同仁可以进来互相交流。

 不知道在哪可以传附件,晕了。。。。。。。有需要数据的请联系我。

posted @ 2015-12-30 02:31 成都笨笨 阅读(8653) 评论(0) 推荐(0) 编辑
摘要: 搜索引擎可以说目前所有互联网应用里技术含量最高的一种。尽管应用形式比较简单:用户输入查询词,搜索引擎返回搜索结果。但是,搜索引擎需要达到的目标:更全、更快、更准。如何让搜索结果更准确始终是搜索引擎的一大难题。 公司最近在开发某行业的垂直搜索引擎,我作为该项目组的核心成员主要是负责核心算法的研... 阅读全文
posted @ 2015-11-23 17:17 成都笨笨 阅读(3122) 评论(1) 推荐(1) 编辑
摘要: 1 shell变量基础 shell变量是一种很“弱”的变量,默认情况下,一个变量保存一个串,shell不关心这个串是什么含义。所以若要进行数学运算,必须使用一些命令例如let、declare、expr、双括号等。shell变量可分为两类:局部变量和环境变量。局部变量只在创建它们的shell中可用。而 阅读全文
posted @ 2016-12-07 16:03 成都笨笨 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 随着移动终端的普及,很多应用都具有LBS功能,如查找附近的餐馆、酒店等应用。 一、球面距离 简单的做法,一般保存了目标位置的经纬度;根据用户提供的经纬度,通过球面距离公式进行计算。公式如下: S=2*asin(sqrt(pow(sin((lat1-lat2)/2),2)+cos(lat1)*cos( 阅读全文
posted @ 2016-07-07 21:44 成都笨笨 阅读(1206) 评论(0) 推荐(0) 编辑
摘要: 公民身份号码是特征组合码,由十七位数字本体码和一位校验码组成。 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位校验码。 1、地址码 表示编码对象常住户口所在县(市、旗、区)的行政区域划分代码,按GB/T2260的规定执行。 2、出生日期码 表示编码对象出生的年、月、 阅读全文
posted @ 2016-07-05 23:02 成都笨笨 阅读(345) 评论(0) 推荐(0) 编辑
摘要: K-Means聚类算法是最为经典的,同时也是使用最为广泛的一种基于划分的聚类算法,它属于基于距离的无监督聚类算法。KMeans算法简单实用,在机器学习算法中占有重要的地位。对于KMeans算法而言,如何确定K值,确实让人头疼的事情。 最近这几天一直忙于构建公司的推荐引擎。对用户群体的分类,要使用KM 阅读全文
posted @ 2016-06-27 21:23 成都笨笨 阅读(6325) 评论(1) 推荐(1) 编辑
摘要: 一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能。 EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口EventDeserializer,该接口定义了readEvent/readEvents方法从各种日志 阅读全文
posted @ 2016-06-26 20:13 成都笨笨 阅读(3028) 评论(0) 推荐(0) 编辑
摘要: 一个稳定可靠的系统离不开监控,我们不仅监控服务是否存活,还要监控系统的运行状况。运行状况主要是对这些组件的核心metrics采集、抓取、分析和报警。 一、监控的数据 监控的日志数据一般包括: v APP、PC、Web 等系统运行Log:采用Flume-NG搜集 v 用户日志 : 采用Flume-NG 阅读全文
posted @ 2016-06-26 20:06 成都笨笨 阅读(6377) 评论(0) 推荐(0) 编辑
摘要: 大数据已经成为一种发展趋势,得到越来越多的公司参与。最近从事大数据系统设计开发和推荐引擎方面的工作,分几篇文章两个系列把自己的心得记录一下, 和大家分享一下大数据方面的经验。 整个平台包括监控系统、日志分析系统、推荐系统。按数据业务步骤划分,分为数据采集、清洗、存储、分析和服务。整个数据流程如下图: 阅读全文
posted @ 2016-06-26 20:02 成都笨笨 阅读(2012) 评论(2) 推荐(0) 编辑
摘要: 下面是些泛泛的基础知识,但是真正搞机器学习的话,还是非常有用。像推荐系统、DSP等目前项目上机器学习的应用的关键,我认为数据处理非常非常重要,因为很多情况下,机器学习的算法是有前提条件的,对数据是有要求的。 机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。 上图表明机器学习是数据通过 阅读全文
posted @ 2016-06-26 19:55 成都笨笨 阅读(4222) 评论(0) 推荐(0) 编辑
摘要: 一、抽屉算法 抽屉算法,又名鸽巢原理,它是德国数学家狄利克雷首先明确的提出来并用以证明一些数论中的问题,因此,也称为狄利克雷原则。它是组合数学中一个重要的原理。 具体算法讲的是: 第一抽屉算法: 如果n+1个物体被放进n个盒子,那么至少有一个盒子包含两个或更多的物体。 证明(反证法):如果每个抽屉至 阅读全文
posted @ 2016-05-10 22:48 成都笨笨 阅读(2967) 评论(0) 推荐(0) 编辑
摘要: Apache Spark itself 1. MLlib AMPLab Spark originally came out of Berkeley AMPLab and even today AMPLab projects, even though they are not in Apache Sp 阅读全文
posted @ 2016-02-20 16:32 成都笨笨 阅读(935) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示