会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
mengrennwpu
好学求知,稳健中流
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
9
···
16
下一页
2019年6月18日
Spark在Windows上调试
摘要: 1. 背景 (1) spark的一般开发与运行流程是在本地Idea或Eclipse中写好对应的spark代码,然后打包部署至驱动节点,然后运行spark-submit。然而,当运行时异常,如空指针或数据库连接等出现问题时,又需要再次修改优化代码,然后再打包....有木有可能只需一次部署? (2) 当
阅读全文
posted @ 2019-06-18 15:56 mengrennwpu
阅读(1593)
评论(0)
推荐(0)
2019年5月13日
Spark读取HDFS中的Zip文件
摘要: 1. 任务背景 近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件
阅读全文
posted @ 2019-05-13 23:05 mengrennwpu
阅读(4158)
评论(0)
推荐(0)
2019年5月7日
Es性能优化
摘要: 1. Es中10亿级别的数据量,如何提高查询效率 (1) 性能优化关键:file system cache a. 不要期待随手挑一个参数,就可以万能的应对所有性能慢的场景 b. es依赖于底层的file system cache,如果给file system cache更多的内存,尽量让内存容纳所有
阅读全文
posted @ 2019-05-07 08:50 mengrennwpu
阅读(2043)
评论(0)
推荐(0)
Spark GraphX初探
摘要: 1. Graphx概念 针对某些领域,如社交网络、语言建模等,graph-parallel系统可以高效地执行复杂的图形算法,比一般的data-parallel系统更快。 Graphx是将graph-parallel的data-parallel统一到一个系统中。允许用户将数据当成一个图或一个集合RDD
阅读全文
posted @ 2019-05-07 08:50 mengrennwpu
阅读(3962)
评论(0)
推荐(0)
2019年3月9日
Spark Streaming初探
摘要: 1. 介绍 Spark Streaming是Spark生态系统中一个重要的框架,建立在Spark Core之上,与Spark SQL、GraphX、MLib相并列。 Spark Streaming是Spark Core的扩展应用,具有可扩展性、高吞吐量、可容错性等特点。 可以监控来自Kafka、Fl
阅读全文
posted @ 2019-03-09 16:15 mengrennwpu
阅读(385)
评论(0)
推荐(0)
2019年3月2日
Spark中自定义累加器Accumulator
摘要: 1. 自定义累加器 自定义累加器需要继承AccumulatorParam,实现addInPlace和zero方法。 例1:实现Long类型的累加器 例2:定义Set[String],可用于记录错误日志 2. AccumulableCollection使用
阅读全文
posted @ 2019-03-02 12:39 mengrennwpu
阅读(2012)
评论(0)
推荐(0)
2019年2月15日
Bash实践:抽样检测数据迁移至Redis集群后的数据一致性
摘要: 熟悉了一段时间的Bash编程,因此借此任务操作一把bash编程,主要涉及到Redis单节点与Redis集群的操作 1. 任务背景 近日有个任务需要将历史的Redis(主从节点)中的数据迁移至Redis集群中。相关条件与要求如下: (1) 历史Redis以及新的Redis集群分别部署在北京、合肥、广州
阅读全文
posted @ 2019-02-15 14:20 mengrennwpu
阅读(670)
评论(0)
推荐(0)
2019年2月14日
Bash编程(6) String操作
摘要: 1. 拼接 1) 简单的字符串拼接如:PATH=$PATH:$HOME/bin。如果拼接的字符串包含空格或特殊字符,需要使用双引号括起,如: 注意:+=的性能较直接拼接的效率高,测试如下: 2) 重复字符到指定长度 通过拼接在每个循环中拼接多个实例来提高函数速度: 2. 字符处理 没有直接的参数扩展
阅读全文
posted @ 2019-02-14 23:27 mengrennwpu
阅读(1044)
评论(0)
推荐(0)
2019年2月12日
Bash编程(5) Shell方法
摘要: shell的方法在相同的进程内执行,与调用它的脚本一致。对于方法来说,脚本中的所有变量均可见,且不需要执行export。方法中可以创建局部变量,且不影响正在调用的脚本。 1. 定义语法 (1) KornShell中的定义格式为:function name <复合命令> (2) Bourne shel
阅读全文
posted @ 2019-02-12 21:47 mengrennwpu
阅读(469)
评论(0)
推荐(0)
2019年1月14日
Bash编程(4) 参数与变量
摘要: 1. 变量命名 变量命名只能使用数字、下划线、字母,且仅能以下划线或字母开头。 变量很少使用单个字母,单个字母一般用于循环或读取一次性文件的时候。 例: 变量名最好能望名知意 2. 变量作用域 若脚本a调用脚本b,则a无法得知b中的变量,除非将b中的变量写入环境变量中。 脚本中在变量前使用expor
阅读全文
posted @ 2019-01-14 17:09 mengrennwpu
阅读(955)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
16
下一页
公告