云山之巅

2019年10月6日

摘要：一.概述强化学习【Reinforcement Learning，RL，增强学习】这一名词来源于行为心理学，表示生物为了趋利避害而更频繁实施对自己有利的策略。强化包括正强化【positive reinforcement】和负强化【negative reinforcement】，其中正强化使得生物趋向阅读全文

posted @ 2019-10-06 21:34 云山之巅阅读(829) 评论(0) 推荐(0)

2019年10月4日

Spark GraphX图计算简单案例【代码实现，源码分析】

摘要：一.简介参考：https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现三.结果 1.三元组视图 2.顶点 3.边 4.各顶点的度 5.三元组视图 6.边/顶点数量四.源码分析阅读全文

posted @ 2019-10-04 12:02 云山之巅阅读(1025) 评论(0) 推荐(0)

2019年10月2日

CDA数据分析【第二章：数据收集与导入】

摘要：一.概述数据是对我们所研究现象的属性和特征的具体描述，在分析数据前必须要做的工作就是收集数据。按照存储形式可以将数据划分为结构化数据、非结构化数据和半结构化数据。 1.结构化数据能够用数据或统一的格式加以表示，简单来说就是数据库。 2.非结构化数据无法用数据或统一的结构加以表示，如视频、音频、阅读全文

posted @ 2019-10-02 19:55 云山之巅阅读(526) 评论(0) 推荐(0)

2019年10月1日

CDA数据分析实务【第一章：营销决策分析概述】

摘要：一.营销概述营销是关于企业如何发现、创造和交付价值以满足一定目标市场的需求，同时获取利润的学科。营销学用来辨识未被满足的需求，定义，度量目标市场的规模和利润潜力，找到最合适企业进入的细分市场和适合该细分市场的供给品。 1.营销的主要过程： 1.机会的辨识【Opportunity Identific 阅读全文

posted @ 2019-10-01 18:36 云山之巅阅读(587) 评论(0) 推荐(0)

2019年9月21日

CDA数据分析【第一章：数据分析概述】

摘要：一.数据分析行业发展 1.如何收集、保存、管理、分析、共享正在呈指数式增长的数据是我们必须要面对的一个重要挑战。 2.数据分析包括数据采集、数据存储、检查、清洗、分析、转换和建模等方法对数据进行处理的一系列流程。用于结果的呈现和商业应用。 3.大数据4V特点：Volume【大量】、Velocity【阅读全文

posted @ 2019-09-21 10:54 云山之巅阅读(606) 评论(0) 推荐(0)

2019年9月18日

BLAS快速入门

摘要：一.简介 BLAS【Basic Linear Algebra Subprograms，基础线性代数程序集】是一个应用程序接口【API】标准，用于规范发布基础基础线性代数操作的数值库【常用于向量或矩阵计算】。该程序集最初发布于1979年，并用于创建更大的数值程序包【例如：LAPACK】。在高性能计算领阅读全文

posted @ 2019-09-18 11:14 云山之巅阅读(4276) 评论(0) 推荐(1)

2019年9月15日

Tachyon内存文件系统快速入门

摘要：一.简介 Tachyon是介于磁盘存储和计算框架之间的一种中间件，用于实现分布式的内存文件读写等功能，实现分布式集群内部共享数据。应用实例：二.架构 1.心跳机制在Tachyon中，心跳用于Master/Worker/Client之间的定期通信以及Master/Worker自身的状态自检。 > 阅读全文

posted @ 2019-09-15 18:10 云山之巅阅读(288) 评论(0) 推荐(0)

2019年9月14日

Solr新特性【4.x,5.x,6.x,7.x】

摘要：一.Solr4.x新特性 1.近实时搜索 Solr的近实时搜索【Near Real-Time，NRT】功能实现了文档添加到搜索的快速进行，以应对搜索快速变化的数据。 2.原子更新与乐观并发原子更新功能允许客户端应用对已有文档上进行添加、更新、删除和对字段增值等操作，而且无需重新发送整个文档。当存在阅读全文

posted @ 2019-09-14 21:09 云山之巅阅读(1177) 评论(0) 推荐(0)

2019年9月7日

SparkStreaming高级算子应用【combineByKey、transform，checkpoint】

摘要：一.combineByKey算子简介功能：实现分组自定义求和及计数。特点：用于处理(key,value)类型的数据。实现步骤： 1.对要处理的数据进行初始化，以及一些转化操作 2.检测key是否是首次处理，首次处理则添加，否则则进行分区内合并【根据自定义逻辑】 3.分组合并，返回结果二.co 阅读全文

posted @ 2019-09-07 17:21 云山之巅阅读(351) 评论(0) 推荐(0)

2019年9月3日

Solr基础理论【相关度计算】

摘要：一.简介寻找匹配的文档是构建优质搜索体验的关键步骤，但这仅仅是第一步。大多数用户不愿意通过逐页翻阅搜索结果来找到想要的文档。根据一般经验，仅有10%的用户在网页搜索中有意愿继续翻阅第一页以后的搜索结果，仅有1%的用户会翻看到第三页结果。Solr实现了搜索结果排序，最佳的结果位于列表顶端。它会计算每阅读全文

posted @ 2019-09-03 20:32 云山之巅阅读(1201) 评论(0) 推荐(0)

2019年9月1日

Solr基础理论【排名检索、查准率、查全率】

摘要：一.排名检索搜索引擎代表了基于查询，返回优先文档的一种方法。在关系型数据库的SQL查询中，表的一行要么匹配一个查询，要么不匹配，查询结果基于一列或多列排序。搜索引擎根据文档与查询匹配的程度为文档打分，并按降序返回结果。匹配程度的计算取决于多个因素，一般而言，文档得分越高意味着该文档与查询的相关性越阅读全文

posted @ 2019-09-01 21:41 云山之巅阅读(826) 评论(0) 推荐(0)

2019年8月28日

Solr基础理论【倒排索引，模糊查询】

摘要：一.简介现有的许多不同类型的技术系统，如关系型数据库、键值存储、操作磁盘文件的map-reduce【映射-规约】引擎、图数据库等，都是为了帮助用户解决颇具挑战性的数据存储与检索问题而设计的。而搜索引擎，尤其是Solr，致力于解决一类特定的问题：搜索大量非结构化的文本数据，并返回最相关的搜索结果。阅读全文

posted @ 2019-08-28 20:27 云山之巅阅读(1210) 评论(0) 推荐(0)

2019年8月25日

Impala快速入门

摘要：一.简介 Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算，兼顾数据仓库，具有实时、批处理、多并发的优点。是CDH平台首选的PB级大数据实时查询分析引擎。二.优点 1.基于内存计算，能够对PB级别数据进行交互式实时查询、分析阅读全文

posted @ 2019-08-25 16:53 云山之巅阅读(286) 评论(0) 推荐(0)

2019年8月23日

Redis特点分析及性能优化

摘要：一.Key 》Redis key值是二进制安全的，这意味着可以可以使用任何二进制序列作为key值。空字符串也是有效的key值。》key取值原则 1.键值不需要太长，消耗内存，且在数据中查找这类键值计算成本较高 2.键值不宜过短，可读性较差，不宜数据分类和扩展》过期 1.Redis中可以给key设阅读全文

posted @ 2019-08-23 11:46 云山之巅阅读(361) 评论(0) 推荐(0)

2019年8月19日

电力系统【第八章：电力系统不对称故障的分析与计算】

摘要：一. 对称分量法 1.在电力系统中突然发生不对称短路时，必然会引起基频分量电流的变化，并产生直流的自由分量。除此之外，不对称短路还会产生一系列的谐波。 2.流过三相正序电流，则在元器件上的三相电压为正序电压，而流过负序或零序电流，则在元器件上的电压为负序或零序电压。也就是说，对于三相对称的元器件，各阅读全文

posted @ 2019-08-19 08:34 云山之巅阅读(3413) 评论(0) 推荐(0)

2019年8月15日

SparkStreaming之checkpoint检查点

摘要：一.简介流应用程序必须保证7*24全天候运行，因此必须能够适应与程序逻辑无关的故障【例如：系统故障、JVM崩溃等】。为了实现这一点，SparkStreaming需要将足够的信息保存到容错存储系统中，以便它可以从故障中恢复。检查点有两种类型。 1.元数据检查点将定义流式计算的信息保存到容错存储系阅读全文

posted @ 2019-08-15 16:03 云山之巅阅读(1228) 评论(0) 推荐(0)

2019年8月14日

Spark排序方式集锦

摘要：一.简介 spark中的排序一般可以使用orderBy或sort算子，可以结合负号、ASC/DESC和col进行简单排序、二次排序等情况二.代码实现三.结果阅读全文

posted @ 2019-08-14 19:36 云山之巅阅读(6809) 评论(0) 推荐(0)

2019年8月11日

Redis持久化

摘要：一.RDB 在默认情况下，Redis将数据库快照保存为dump.rdb的二进制文件。方式： 1.阻塞方式客户端中执行save命令 2.非阻塞方式策略 1.自动，按照配置文件中的条件满足就执行bgsave 2.手动，客户端发起save,bgsave命令优点 1.完全备份，不同时间的数据备份可以阅读全文

posted @ 2019-08-11 21:33 云山之巅阅读(150) 评论(0) 推荐(0)

2019年8月9日

Spark ML协同过滤推荐算法

摘要：一.简介协同过滤算法【Collaborative Filtering Recommendation】算法是最经典、最常用的推荐算法。该算法通过分析用户兴趣，在用户群中找到指定用户的相似用户，综合这些相似用户对某一信息的评价，形成系统关于该指定用户对此信息的喜好程度预测。二.步骤 1.收集用户偏好阅读全文

posted @ 2019-08-09 17:53 云山之巅阅读(2938) 评论(0) 推荐(0)

2019年7月29日

Spark基于自定义聚合函数实现【列转行、行转列】

摘要：一.分析 Spark提供了非常丰富的算子，可以实现大部分的逻辑处理，例如，要实现行转列，可以用hiveContext中支持的concat_ws(',', collect_set('字段'))实现。但是这有明显的局限性【sqlContext不支持】，因此，基于编码逻辑或自定义聚合函数实现相同的逻辑就显阅读全文

posted @ 2019-07-29 21:19 云山之巅阅读(3134) 评论(0) 推荐(0)

------自学是你超越他人使自己变的重要的一种能力！

公告