摘要: 机器学习算法分为有监督、无监督,深度学习则是机器学习的一部分。 有监督学习分为分类和回归等,无监督一般用得最多的是聚类和降维。 其中还有集成学习、强化学习、半监督学习等算法 分类算法大致常用的如下: 1、朴素贝叶斯(Naive Bayes) 2、决策树(Decision Tree, DT) 3、支持 阅读全文
posted @ 2020-03-23 17:11 站在云端看世界 阅读(2394) 评论(0) 推荐(0) 编辑
摘要: 最近更换回eclipse办公,遇到了jdk版本的问题,现在将一个业界比较流行的做法,如下 在工程的pom.xml文件中加入以下两个即可, 1.如果不加此步可能会报这个错误 Missing artifact jdk.tools:jdk.tools:jar:1.6jdk版本 <dependency> < 阅读全文
posted @ 2020-03-18 11:44 站在云端看世界 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 笔者因为版权原因,被要求卸掉IDEA, 所以重新变回eclipse开发者,这很久没用eclipse,真有些不习惯。 这重新加载maven的时候,发现pom.xml中的包没下载,其实我的本地仓库已经有,所以分享出来给需要的盆友们。 按下面这样操作一遍,就可以把maven中的包加载了, 1、eclips 阅读全文
posted @ 2020-03-18 11:17 站在云端看世界 阅读(771) 评论(0) 推荐(0) 编辑
摘要: 激活函数 1.Sigmoid激活函数:sigmoid将实值输出压缩在[0,1]范围内,最后输出的结果的平均值更趋近于0.5 (1)sigmoid函数饱和使梯度消失(sigmoidsaturate and kill gradients)。我们从导函数中可以看出sigmoid的导数都是小于0.25的,那 阅读全文
posted @ 2020-03-04 17:51 站在云端看世界 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 1.maven配置 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.ap 阅读全文
posted @ 2020-01-13 10:17 站在云端看世界 阅读(1102) 评论(0) 推荐(0) 编辑
摘要: 1.简述 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 阅读全文
posted @ 2020-01-08 10:43 站在云端看世界 阅读(707) 评论(0) 推荐(0) 编辑
摘要: https://mp.weixin.qq.com/s?src=11&timestamp=1585114892&ver=2237&signature=Lk2sAwtr2YRwgCdaogk8ZKVyl6iBDy6tEgRStNoZDoWi3meswFbkAj13N4DTOE3VNswdOt4Z*WIh 阅读全文
posted @ 2019-11-29 11:37 站在云端看世界 阅读(362) 评论(0) 推荐(0) 编辑
摘要: 1.如果条件允许,内存和cpu一定要足够多,要超过总数据量的1半以上最好,当然数据量很大的时候要在经常查询数据的2倍以上。 2.数据分离存储,经常查询的数据放一些索引,不经常查询的放一部分索引,然后通过唯一的id关联即可,需要查那些不经常查的数据的时候通过id查询即可,这里可以和hbase联合使用。 阅读全文
posted @ 2019-11-29 11:17 站在云端看世界 阅读(2683) 评论(0) 推荐(0) 编辑
摘要: 以下信息,只要根据自己的数据库的相应信息修改以下,即可,sqoop其实就是很简单的,一般hive数据存储为列式存储,所以要提前把要写到关系型数据库的数据写到一个text后缀的表里,然后才能导出到关系型数据库中。 还要特别注意写到关系型数据库中数据的格式要一一对应 #pg库相关信息 database_ 阅读全文
posted @ 2019-11-29 10:49 站在云端看世界 阅读(1270) 评论(0) 推荐(0) 编辑
摘要: 最近在做es集群的海量数据写入,公司的数据量比较大,日均增量达到了5亿+,有将近150G的数据,这对es来说,如果用默认的设置和常规的写入简直无法完成,哪怕写进去了,也是大量重复,数据丢失,基本写不进去。 es的写入方式有很多种,可以通过logstach直接写入,可以通过api接口写入,也可以通过s 阅读全文
posted @ 2019-08-15 15:25 站在云端看世界 阅读(4423) 评论(0) 推荐(0) 编辑