静悟生慧

2019年6月3日

摘要：Ｈ2O中的随机森林算法介绍及其项目实战（python实现）包的引入：from h2o.estimators.random_forest import H2ORandomForestEstimator H2ORandomForestEstimator 的常用方法和参数介绍： (一)建模方法： mod 阅读全文

posted @ 2019-06-03 16:37 静悟生慧阅读(504) 评论(0) 推荐(0) 编辑

2019年5月31日

kafka 基本原理简介

摘要： Kafka是啥？用Kafka官方的话来说就是： Kafka is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fa 阅读全文

posted @ 2019-05-31 17:41 静悟生慧阅读(590) 评论(0) 推荐(0) 编辑

2019年5月29日

Elasticsearch

摘要： Elasticsearch 官网：https://www.elastic.co/cn/products/elasticsearch Elasticsearch 是一个分布式的基于 RESTful 接口的搜索和分析引擎，它能够解决越来越多的使用场景。作为 Elastic Stack 的核心，它集中存储阅读全文

posted @ 2019-05-29 17:03 静悟生慧阅读(934) 评论(0) 推荐(0) 编辑

Flink简介

摘要： Flink简介 Flink的核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布，数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以方便用户编写分布式任务： 1. DataSet API, 对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，阅读全文

posted @ 2019-05-29 16:42 静悟生慧阅读(373) 评论(0) 推荐(0) 编辑

2019年5月28日

SQL中instr和like的使用区别

摘要： 1、instr函数 instr函数是一个字符串处理函数，它在Oracle/PLSQL中是返回子字符串在源字符串中的位置，如果在源串中没有找到子串，则返回0。 instr函数定义如下：例如： 2、like关键字 like关键字也可称为通配符，在SQL中用于模糊查询。可以使用“%”和“_”通配符，其中阅读全文

posted @ 2019-05-28 20:22 静悟生慧阅读(4899) 评论(0) 推荐(3) 编辑

2019年5月6日

count(1) 与 count(*) 比较

摘要： 1. count(1) and count(*) 当表的数据量大些时，对表作分析之后，使用count(1)还要比使用count(*)用时多了！从执行计划来看，count(1)和count(*)的效果是一样的。但是在表做过分析之后，count(1)会比count(*)的用时少些（1w以内数据量），阅读全文

posted @ 2019-05-06 18:01 静悟生慧阅读(1649) 评论(0) 推荐(0) 编辑

2019年4月25日

hive set 常用参数汇总

摘要： 1、 set hive.auto.convert.join = true; mapJoin的主要意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作。join就发生在map操作的时候，每当扫描一个大的table中阅读全文

posted @ 2019-04-25 17:47 静悟生慧阅读(8824) 评论(0) 推荐(0) 编辑

2019年4月23日

hive Spark SQL分析窗口函数

摘要： Spark1.4发布，支持了窗口分析函数(window functions)。在离线平台中，90%以上的离线分析任务都是使用Hive实现，其中必然会使用很多窗口分析函数，如果SparkSQL支持窗口分析函数，那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低，使用方式如下： 1、初始化阅读全文

posted @ 2019-04-23 20:40 静悟生慧阅读(1132) 评论(0) 推荐(0) 编辑

2019年4月22日

推荐系统模型之 FM

摘要：什么是FM模型 FM英文全称是“Factorization Machine”，简称FM模型，中文名“因子分解机”。 FM模型其实有些年头了，是2010年由Rendle提出的，但是真正在各大厂大规模在CTR预估和推荐领域广泛使用，其实也就是最近几年的事。 FM模型原理参考： https://zhua 阅读全文

posted @ 2019-04-22 15:27 静悟生慧阅读(8970) 评论(1) 推荐(2) 编辑

2019年4月21日

C++ OpenMp的并行编程

摘要：基于OpenMp的并行编程功能：并行处理比较耗时的for循环在OpenMP中，对for循环并行化的任务调度使用schedule子句来实现：使用格式：schedule(type[,size]) type参数表示调度类型：static、dynamic、guided size参数（可选）：分配给每个阅读全文

posted @ 2019-04-21 18:03 静悟生慧阅读(5278) 评论(0) 推荐(0) 编辑

公告