会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
知己一生
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
下一页
2020年3月10日
Spark Graphx完成图挖掘
摘要: Spark中完成图挖掘经常以GraphX作为工具,我们以金融领域中常见的集团派系图谱为例子,学习Spark完成图挖掘工作。 为了更直接表达,我们可以先看一张自己造的派系图谱。 转化成输入数据之后为: 实际控制关系为: {"_from": 3,"_to": 1,"src_name": "尹明善","d
阅读全文
posted @ 2020-03-10 22:18 知己一生
阅读(504)
评论(0)
推荐(0)
编辑
2020年3月8日
Spark完成wordCount
摘要: Spark官方自带了WordCount的样例,我们也可以自己实现,加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit
阅读全文
posted @ 2020-03-08 13:08 知己一生
阅读(291)
评论(0)
推荐(0)
编辑
2020年3月1日
Spark介绍
摘要: 通常当我们计算的数据超过了单机维度,比如我们的PC内存共8G,而需要计算的数据为100G,这时候我们通常选择大数据集群进行计算。 Spark是大数据处理的计算引擎。,这是它的发展是为了解决替代Hadoop的MapReduce计算引擎。 Hadoop的架构如下,核心包括两点:Hdfs和MapReduc
阅读全文
posted @ 2020-03-01 14:51 知己一生
阅读(232)
评论(0)
推荐(0)
编辑
2018年8月22日
分库分表介绍
摘要: 一、背景 读写分离是为了扩展数据库的读能力,分库分表则是为了扩展数据库的写能力。 一旦业务表中数据太大(对于mysql,单表数据一般不超过3000w,单库不超过300G),无论是任何CRUD操作,所耗费资源和性能都极大。这个时候一般就需要 分库分表,将海量数据分配给N个子表维护。 二、分库分表优点
阅读全文
posted @ 2018-08-22 15:28 知己一生
阅读(279)
评论(0)
推荐(0)
编辑
2018年6月6日
rpc学习
摘要: 一、rpc定义: rpc(远程过程调用),它是一种通过网络从远程计算机获取服务,就像本地调用服务,不需要程序员了解底层的网络技术协议。 比如两台服务器A和B,A需要调用B的服务,但是二者不在同一内存空间,所以无法直接调用。需要规范调用参数和数据。 通过rpc框架,可以避免冗余的网络通信代码,就像调用
阅读全文
posted @ 2018-06-06 13:16 知己一生
阅读(136)
评论(0)
推荐(0)
编辑
2018年3月29日
xgboost应用
摘要: 在业务中,我们经常需要对数据建模并预测。简单的情况下,我们采用 if else 判断(一棵树)即可。但如果预测结果与众多因素有关,而每一个特征的权重又不尽相同。 所以我们如何把这些特征的权重合理的找出来,xgboost正是这样一种算法。 xgboost的原理大致是会构建多棵决策树,来提高预测率。原谅
阅读全文
posted @ 2018-03-29 15:35 知己一生
阅读(219)
评论(0)
推荐(0)
编辑
2017年10月12日
ElasticSearch 批量增加索引
摘要: 服务端批量增加索引,版本是5.1.1 这样就会把索引写入。
阅读全文
posted @ 2017-10-12 17:13 知己一生
阅读(1133)
评论(0)
推荐(0)
编辑
2017年10月11日
乡愁
摘要: 乡愁是什么,不同的人感受一定不同。 细细想起,我应该是从高中开始,逐渐的有了这种感觉。初中毕业后,为了能够读一所升学率不错的同学,我离开了长大的小县城,到另一所县城Z去读书。 寒来暑往,高中的生活是紧张充实的,大家为了大学梦,几乎都分秒必争。假期的日子极短,只有每个周末的下午才能休息半天。因为补课的
阅读全文
posted @ 2017-10-11 11:27 知己一生
阅读(115)
评论(0)
推荐(0)
编辑
2017年10月10日
java futureTask的使用
摘要: futureTask 它的意义在于去除主函数的等待时间,使得主函数在执行耗时操作时无需死等,只需要在未来task执行完毕,再获取结果。 下面的 futureTask 的一个简单例子。
阅读全文
posted @ 2017-10-10 16:02 知己一生
阅读(672)
评论(1)
推荐(1)
编辑
2017年9月26日
ElasticSearch 例子
摘要: ElasticSearch是一个接近实时的搜索平台,它利用Lucese进行文档索引。 本文会写个可以运行的简单例子,方便大家上手,日后深入了解。 需要引入maven依赖 然后是测试主程序 不要忘了配置 log4j2.properties 以上就可以了。 tips: jdk8以下可能会遇到问题。
阅读全文
posted @ 2017-09-26 18:00 知己一生
阅读(796)
评论(0)
推荐(0)
编辑
1
2
3
4
5
下一页