云山之巅

2019年7月25日

摘要：一.概览二.常用函数代码实战 1.eval eval()函数用来执行一个字符串表达式，并返回表达式的结果。结果： 2.divmod divmod()函数把除数和余数运算结果结合起来，返回一个包含商和余数的元组(a / b,a % b)。结果： 3.sum sum()函数对可迭代对象【列表，元组阅读全文

posted @ 2019-07-25 21:21 云山之巅阅读(255) 评论(0) 推荐(0)

2019年7月22日

Spark广播变量和累加器

摘要：一.广播变量图解二.代码三.注意事项 1.不能将一个RDD使用广播变量广播出去，因为RDD是不存储数据的【弹性分布式数据集】。可以将RDD的结果广播出去【collect，数据不能太多】。 2.广播变量只能在Driver端定义，不能在Executor端定义。 3.在Driver端可以修改广播变量的阅读全文

posted @ 2019-07-22 21:05 云山之巅阅读(238) 评论(0) 推荐(0)

2019年7月20日

电力系统【第七章：电力系统三相短路的分析与计算】

摘要：一.电力系统故障概述 1.短路短路是指电力系统正常运行情况下以外的相与相或相与地【或中性线】之间的故障连接。 2.对称短路与不对称短路三相短路时三相回路依旧是对称的，故称为对称短路。其它几种短路均使三相回路不对称，故称为不对称短路，如下： 3.产生短路的主要原因是电气设备载流部分的相间绝缘或相对阅读全文

posted @ 2019-07-20 17:06 云山之巅阅读(5321) 评论(0) 推荐(0)

2019年7月16日

ES读写索引内幕分析

摘要：一.简介 ES中的索引都进行分片，每个分片都会保存多个副本。这些副本称为复制组，在添加或删除索引时必须同步副本。如果不这样，从不同的副本中读取的索引可能截然不同。保持分片副本同步并从中提供读取的过程被称为数据复制模型。 ES的数据复制模型基于主备份模型。该模型基于单一复制的副本组，该模型对应的分片充阅读全文

posted @ 2019-07-16 20:58 云山之巅阅读(705) 评论(0) 推荐(0)

ECharts大屏可视化【词云，堆积柱状图，折线图，南丁格尔玫瑰图】

摘要：一.简介参考ECharts快速入门：https://www.cnblogs.com/yszd/p/11166048.html 二.代码实现三.效果阅读全文

posted @ 2019-07-16 17:43 云山之巅阅读(1923) 评论(0) 推荐(0)

2019年7月15日

Python实现柱状图【数字精准展示，使用不同颜色】

摘要：一.简介主要使用matplotlib基于python的可视化组件实现。二.代码实现三.结果阅读全文

posted @ 2019-07-15 15:16 云山之巅阅读(27534) 评论(0) 推荐(1)

2019年7月10日

ECharts快速入门

摘要：一.简介 ECharts，一个使用 JavaScript 实现的开源可视化库，可以流畅的运行在 PC 和移动设备上，兼容当前绝大部分浏览器（IE8/9/10/11，Chrome，Firefox，Safari等），底层依赖轻量级的矢量图形库 ZRender，提供直观，交互丰富，可高度个性化定制的数据可阅读全文

posted @ 2019-07-10 19:40 云山之巅阅读(1416) 评论(0) 推荐(0)

2019年7月9日

Solr字段类型

摘要：一.一般属性 1.name fieldType的名称。该值用于字段定义中的类型属性，强烈建议名称仅包含字母数字和下划线，不能以数字开头【非强制】。 2.class 用于存储和索引此类型数据的类名。可以用solr作为前缀包含的类名称。solr会自动找出那些软件包可以定位到这个类。如果使用的是第三方类阅读全文

posted @ 2019-07-09 14:55 云山之巅阅读(3249) 评论(0) 推荐(0)

2019年7月7日

Python使用numpy进行数据转换

摘要：一.测试数据二.代码实现三.结果阅读全文

posted @ 2019-07-07 12:02 云山之巅阅读(3392) 评论(0) 推荐(0)

2019年7月6日

Spark之开窗函数

摘要：一.简介开窗函数row_number()是按照某个字段分组，然后取另外一个字段排序的前几个值的函数，相当于分组topN。如果SQL语句里面使用了开窗函数，那么这个SQL语句必须使用HiveContext执行。二.代码实践【使用HiveContext】三.结果【使用HiveContext】 1. 阅读全文

posted @ 2019-07-06 14:32 云山之巅阅读(2924) 评论(0) 推荐(0)

2019年7月3日

Hive函数集锦

摘要：一.内置运算符 1关系运算符 2.算术运算符 3.逻辑运算符 4.复杂类型函数 5.复杂类型函数应用阅读全文

posted @ 2019-07-03 20:02 云山之巅阅读(188) 评论(0) 推荐(0)

Hive性能优化【严格模式、join优化、Map-Side聚合、JVM重用】

摘要：一.严格模式通过设置以下参数开启严格模式： >set hive.mapred.mode=strict;【默认为nonstrict非严格模式】查询限制： 1.对于分区表，必须添加where查询条件来对分区字段进行条件过滤。 2.order by语句必须包含limit输出限制。 3.限制执行笛卡尔积阅读全文

posted @ 2019-07-03 09:26 云山之巅阅读(2312) 评论(0) 推荐(0)

2019年6月25日

Hive权限管理

摘要：一.Storage Based Authorization in the Metastore Server >基于存储的授权，可以对Metastore中的元数据进行保护，但是没有提供更加细粒度的访问控制【例如：列级别、行级别等】。 >启用当前认证方式后，dfs,add,delete,compile, 阅读全文

posted @ 2019-06-25 21:07 云山之巅阅读(3022) 评论(0) 推荐(0)

2019年6月22日

使用python模拟实现KNN算法

摘要：一.KNN简介 1.KNN算法也称为K邻近算法，是数据挖掘分类技术之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。 2.KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本阅读全文

posted @ 2019-06-22 20:17 云山之巅阅读(5764) 评论(0) 推荐(0)

2019年6月18日

Hive架构分析

摘要：一.Hive三种设计模式 1.默认配置【使用Netty存储元数据】 2.mysql【使用mysql存储元数据】 3.配置Thrift【使用mysql存储元数据】二.执行步骤三.scala访问Hive 阅读全文

posted @ 2019-06-18 16:11 云山之巅阅读(247) 评论(0) 推荐(0)

HBase优化

摘要：一.表设计 1.预分区【Pre-Creating Regions】默认情况下，在创建HBase表的时候会自动创建一个region分区，当写入数据时，所有的HBase客户端都向这一个region写数据，直到这个region足够大时才进行切分。因此，为了提高批量写入的效率可以预先创建好多个分区【这个要阅读全文

posted @ 2019-06-18 10:51 云山之巅阅读(238) 评论(0) 推荐(0)

2019年6月17日

Hive索引

摘要：一.目的优化查询以及检索性能二.创建索引 create index index_user on table user(name) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandle' wiith deferred rebu 阅读全文

posted @ 2019-06-17 17:07 云山之巅阅读(777) 评论(0) 推荐(0)

2019年6月14日

Hive视图

摘要：一.特征和关系型数据库中的普通视图一样，hive也支持视图。二.特点 1.不支持物化视图。 2.只能查询，不能做加载数据操作。 3.视图的创建，只是保存一份元数据，查询视图时才执行对应的子查询。 4.view定义中若包含了ORDER BY/LIMIT语句，则当查询视图时也进行ORDER BY/L 阅读全文

posted @ 2019-06-14 21:45 云山之巅阅读(3935) 评论(0) 推荐(0)

Hive Lateral View

摘要：一.简介 1.Lateral View 用于和UDTF函数【explode,split】结合来使用。 2.首先通过UDTF函数将数据拆分成多行，再将多行结果组合成一个支持别名的虚拟表。 3.主要解决在select使用UDTF做查询的过程中查询只能包含单个UDTF，不能包含其它字段以及多个UDTF的情阅读全文

posted @ 2019-06-14 20:45 云山之巅阅读(2541) 评论(0) 推荐(0)

2019年6月13日

推荐系统-协同过滤算法

摘要：一.UserCF【基于用户】基于用户的协同过滤，通过不同用户对商品的评分来评测用户之间的相似性，基于用户之间的相似性进行推荐。简单来说就是：给用户推荐和他兴趣相似的其它用户喜欢的商品。二.ItemCF【基于商品】基于商品的协同过滤，通过用户对不同商品的评分来评测商品之间的相似性，基于商品之间的阅读全文

posted @ 2019-06-13 20:46 云山之巅阅读(1523) 评论(0) 推荐(0)

------自学是你超越他人使自己变的重要的一种能力！

公告