摘要: K近邻应用-异常检测应用 原理: 根据数据样本进行KMeans机器学习模型的建立,获取簇心点,以簇为单位,离簇心最远的第五个点的距离为阈值,大于这个值的为异常点,即获得数据异常。 如图: 数据样本: 数据样本的数据格式为:标号,特征值1,特征值2(没有具体含义,自动生成的数据只为能够简单的说明异常检 阅读全文
posted @ 2016-09-18 15:45 舆 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 下面的 ES基于版本(V2.3.4) ES之默认 1.默认自动发先同一局域网的所有集群节点 2.默认一个索引库会有5个分片,(分片越多,效率越好) 由于这两个默认,所以统一索引库的分片对分布在不同机器上,API搜索时会有这样的问题 ES的搜索类型 1.为什么会有这个东西? 如图,会出现这两个问题: 阅读全文
posted @ 2016-08-06 11:30 舆 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 机器数据的来源 何为机器数据,就对其字面意思理解,机器产生的数据。那机器数据具体都是怎样的?比如:日志数据、监控摄像图传过来的数据、手机传过来的数据、传感器传过来的、扫码.....几乎遍布生活的点点滴滴。 机器数据的传统解决方案 对于这样的数据,以前的IT运维监控、视频监控软件、动力环境系统都有实现 阅读全文
posted @ 2016-08-04 11:35 舆 阅读(1825) 评论(0) 推荐(1) 编辑
摘要: 工作中的问题总结: 问题一:scala 之向下转型 引言:假如在复杂的业务逻辑中,变量的类型不能确认,只能给个接口类型,这样数据类型推导不会错误,但是后面要使用实现类的类型时,你却发现转不过来了? 对于这样的一个问题,scala可以这样解决: 首先建造一个接口,People: 这样定义了一个接口,接 阅读全文
posted @ 2016-07-19 00:46 舆 阅读(1354) 评论(0) 推荐(0) 编辑
摘要: 数据处理过程分为数据挖掘和数据分析,广义上说数据分析泛指整个过程,然而数据分析大的流程大致相同,如图: 数据挖掘一般都要经过过滤、漂洗、匹配三个过程: 1.过滤:主要将数据中的不适合分析的数据过滤掉,就好比产品流水线的残次品一样,对数据进行组粒度的过滤,其规则可按数据大小,字符长短; 2.漂洗:也称 阅读全文
posted @ 2016-07-09 13:37 舆 阅读(1344) 评论(0) 推荐(0) 编辑
摘要: scala的数据库连接池,基于mysql 配置文件 dao类 阅读全文
posted @ 2016-07-09 12:01 舆 阅读(4301) 评论(0) 推荐(0) 编辑
摘要: 在企业生产中,集群一旦运行,是要尽可能的将损失降到最低,现在所有的大数据技术都有HA,spark的、Hadoop的、HBase的等等, HA分冷备和热备,热备是集群自带的,冷备就是硬件的。 这样一种情况:晚上了,人睡着了,突然的大数据量来了,nameNode、master崩了,HA启动了另一台备用节 阅读全文
posted @ 2016-07-07 19:05 舆 阅读(685) 评论(1) 推荐(1) 编辑
摘要: 上讲,讲述了大概九种的技术种类以及他们的领域。那么既然有吃饭的,那就必须有做饭的。因此大数据技术结构的选型,必须有的组成部分至少三种(来源、计算、存储) 最简单的数据处理架构: 最少单元的数据处理方案,当然这个不是最好的,为什么呢,问题: 1.流式处理数据(Streaming)时,数据量小时,数据存 阅读全文
posted @ 2016-07-05 21:08 舆 阅读(811) 评论(1) 推荐(0) 编辑
摘要: private ,protected,public,在不加前两者声明时为public为公共式访问; private为私有式访问;protected为家族式访问,与Java一致。 object Outer { class Inner{ def f(){//若该方法是私有属性 private 则不能被外 阅读全文
posted @ 2016-07-05 14:52 舆 阅读(369) 评论(0) 推荐(0) 编辑
摘要: /apps/app/spark-1.6.1-bin-hadoop2.6/bin/spark-submit --class com.zdhy.zoc2.sparksql.core.JavaSparkSqlLogRegularApp --files /apps/app/apache-hive-1.2.1 阅读全文
posted @ 2016-07-05 14:45 舆 阅读(52176) 评论(0) 推荐(0) 编辑