站在云端看世界

2020年3月23日

摘要：机器学习算法分为有监督、无监督，深度学习则是机器学习的一部分。有监督学习分为分类和回归等，无监督一般用得最多的是聚类和降维。其中还有集成学习、强化学习、半监督学习等算法分类算法大致常用的如下： 1、朴素贝叶斯（Naive Bayes） 2、决策树（Decision Tree, DT） 3、支持阅读全文

posted @ 2020-03-23 17:11 站在云端看世界阅读(2456) 评论(0) 推荐(0)

2020年3月18日

eclipse工程中修改jdk版本

摘要：最近更换回eclipse办公，遇到了jdk版本的问题，现在将一个业界比较流行的做法，如下在工程的pom.xml文件中加入以下两个即可， 1.如果不加此步可能会报这个错误 Missing artifact jdk.tools:jdk.tools:jar:1.6jdk版本 <dependency> < 阅读全文

posted @ 2020-03-18 11:44 站在云端看世界阅读(313) 评论(0) 推荐(0)

eclipse中加载maven仓库

摘要：笔者因为版权原因，被要求卸掉IDEA，所以重新变回eclipse开发者，这很久没用eclipse，真有些不习惯。这重新加载maven的时候，发现pom.xml中的包没下载，其实我的本地仓库已经有，所以分享出来给需要的盆友们。按下面这样操作一遍，就可以把maven中的包加载了， 1、eclips 阅读全文

posted @ 2020-03-18 11:17 站在云端看世界阅读(802) 评论(0) 推荐(0)

2020年3月4日

深度学习-激活函数

摘要：激活函数 1.Sigmoid激活函数：sigmoid将实值输出压缩在[0,1]范围内，最后输出的结果的平均值更趋近于0.5 （1）sigmoid函数饱和使梯度消失(sigmoidsaturate and kill gradients)。我们从导函数中可以看出sigmoid的导数都是小于0.25的，那阅读全文

posted @ 2020-03-04 17:51 站在云端看世界阅读(346) 评论(0) 推荐(0)

2020年1月13日

Idea-spark消费kafka数据写入es

摘要： 1.maven配置 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.ap 阅读全文

posted @ 2020-01-13 10:17 站在云端看世界阅读(1114) 评论(0) 推荐(0)

2020年1月8日

hive操作规范

摘要： 1.简述 Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需阅读全文

posted @ 2020-01-08 10:43 站在云端看世界阅读(773) 评论(0) 推荐(0)

2019年11月29日

hive的优化

摘要： https://mp.weixin.qq.com/s?src=11&timestamp=1585114892&ver=2237&signature=Lk2sAwtr2YRwgCdaogk8ZKVyl6iBDy6tEgRStNoZDoWi3meswFbkAj13N4DTOE3VNswdOt4Z*WIh 阅读全文

posted @ 2019-11-29 11:37 站在云端看世界阅读(464) 评论(0) 推荐(0)

es查询性能优化

摘要： 1.如果条件允许，内存和cpu一定要足够多，要超过总数据量的1半以上最好，当然数据量很大的时候要在经常查询数据的2倍以上。 2.数据分离存储，经常查询的数据放一些索引，不经常查询的放一部分索引，然后通过唯一的id关联即可，需要查那些不经常查的数据的时候通过id查询即可，这里可以和hbase联合使用。阅读全文

posted @ 2019-11-29 11:17 站在云端看世界阅读(2779) 评论(0) 推荐(0)

sqoop将hive数据导出到关系型数据库

摘要：以下信息，只要根据自己的数据库的相应信息修改以下，即可，sqoop其实就是很简单的，一般hive数据存储为列式存储，所以要提前把要写到关系型数据库的数据写到一个text后缀的表里，然后才能导出到关系型数据库中。还要特别注意写到关系型数据库中数据的格式要一一对应 #pg库相关信息 database_ 阅读全文

posted @ 2019-11-29 10:49 站在云端看世界阅读(1298) 评论(0) 推荐(0)

2019年8月15日

es6.5的海量数据写入

摘要：最近在做es集群的海量数据写入，公司的数据量比较大，日均增量达到了5亿+，有将近150G的数据，这对es来说，如果用默认的设置和常规的写入简直无法完成，哪怕写进去了，也是大量重复，数据丢失，基本写不进去。 es的写入方式有很多种，可以通过logstach直接写入，可以通过api接口写入，也可以通过s 阅读全文

posted @ 2019-08-15 15:25 站在云端看世界阅读(4474) 评论(0) 推荐(0)

站在云端看世界

公告