摘要: Spark中完成图挖掘经常以GraphX作为工具,我们以金融领域中常见的集团派系图谱为例子,学习Spark完成图挖掘工作。 为了更直接表达,我们可以先看一张自己造的派系图谱。 转化成输入数据之后为: 实际控制关系为: {"_from": 3,"_to": 1,"src_name": "尹明善","d 阅读全文
posted @ 2020-03-10 22:18 知己一生 阅读(504) 评论(0) 推荐(0) 编辑
摘要: Spark官方自带了WordCount的样例,我们也可以自己实现,加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit 阅读全文
posted @ 2020-03-08 13:08 知己一生 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 通常当我们计算的数据超过了单机维度,比如我们的PC内存共8G,而需要计算的数据为100G,这时候我们通常选择大数据集群进行计算。 Spark是大数据处理的计算引擎。,这是它的发展是为了解决替代Hadoop的MapReduce计算引擎。 Hadoop的架构如下,核心包括两点:Hdfs和MapReduc 阅读全文
posted @ 2020-03-01 14:51 知己一生 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 一、背景 读写分离是为了扩展数据库的读能力,分库分表则是为了扩展数据库的写能力。 一旦业务表中数据太大(对于mysql,单表数据一般不超过3000w,单库不超过300G),无论是任何CRUD操作,所耗费资源和性能都极大。这个时候一般就需要 分库分表,将海量数据分配给N个子表维护。 二、分库分表优点 阅读全文
posted @ 2018-08-22 15:28 知己一生 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 一、rpc定义: rpc(远程过程调用),它是一种通过网络从远程计算机获取服务,就像本地调用服务,不需要程序员了解底层的网络技术协议。 比如两台服务器A和B,A需要调用B的服务,但是二者不在同一内存空间,所以无法直接调用。需要规范调用参数和数据。 通过rpc框架,可以避免冗余的网络通信代码,就像调用 阅读全文
posted @ 2018-06-06 13:16 知己一生 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 在业务中,我们经常需要对数据建模并预测。简单的情况下,我们采用 if else 判断(一棵树)即可。但如果预测结果与众多因素有关,而每一个特征的权重又不尽相同。 所以我们如何把这些特征的权重合理的找出来,xgboost正是这样一种算法。 xgboost的原理大致是会构建多棵决策树,来提高预测率。原谅 阅读全文
posted @ 2018-03-29 15:35 知己一生 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 服务端批量增加索引,版本是5.1.1 这样就会把索引写入。 阅读全文
posted @ 2017-10-12 17:13 知己一生 阅读(1133) 评论(0) 推荐(0) 编辑
摘要: 乡愁是什么,不同的人感受一定不同。 细细想起,我应该是从高中开始,逐渐的有了这种感觉。初中毕业后,为了能够读一所升学率不错的同学,我离开了长大的小县城,到另一所县城Z去读书。 寒来暑往,高中的生活是紧张充实的,大家为了大学梦,几乎都分秒必争。假期的日子极短,只有每个周末的下午才能休息半天。因为补课的 阅读全文
posted @ 2017-10-11 11:27 知己一生 阅读(115) 评论(0) 推荐(0) 编辑
摘要: futureTask 它的意义在于去除主函数的等待时间,使得主函数在执行耗时操作时无需死等,只需要在未来task执行完毕,再获取结果。 下面的 futureTask 的一个简单例子。 阅读全文
posted @ 2017-10-10 16:02 知己一生 阅读(672) 评论(1) 推荐(1) 编辑
摘要: ElasticSearch是一个接近实时的搜索平台,它利用Lucese进行文档索引。 本文会写个可以运行的简单例子,方便大家上手,日后深入了解。 需要引入maven依赖 然后是测试主程序 不要忘了配置 log4j2.properties 以上就可以了。 tips: jdk8以下可能会遇到问题。 阅读全文
posted @ 2017-09-26 18:00 知己一生 阅读(796) 评论(0) 推荐(0) 编辑