Loading...

摘要: 上次分析了dagshceduler是如何将任务拆分成job,stage,task的,但是拆分后的仅仅是一个逻辑结果,保存为一个resultstage对象,并没执行; 而将任务正在执行的是spark的taskscheduler模块和shcedulerbackend模块, taskcheduler模块负 阅读全文
posted @ 2018-10-13 13:25 严康 阅读(1746) 评论(0) 推荐(0) 编辑
摘要: 首先可以查看hdfs文件, hadoop fs -ls /user/yankang02 结合日期是第六个属性,那么awk则选择$6 执行后得到 hadoop fs -ls /user/yankang02 | awk 'BEGIN{ days_ago=strftime("%F", systime()- 阅读全文
posted @ 2018-10-11 17:48 严康 阅读(5128) 评论(0) 推荐(0) 编辑
摘要: 上篇中已经分析了DAGscheduler的监听机制,以及job的划分,这次我们再来看一看stage是如何划分以及stage的最终提交; 当jobsubmit 加入到DAGscheduler的event队列中的时候, 就会将job的stage划分为resultstage 和 shufflestage, 阅读全文
posted @ 2018-10-11 12:39 严康 阅读(682) 评论(0) 推荐(0) 编辑
摘要: 背景: 前几天了解了spark了运行架构,spark代码提交给driver时候会根据rdd生成DAG,那么实际DAG在代码中是如何生成的呢? 首先了解,spark任务中的几个划分点: 1.job:job是由rdd的action来划分,每一个action操作是在spark任务执行时是一个job。(ac 阅读全文
posted @ 2018-10-10 22:31 严康 阅读(1684) 评论(0) 推荐(0) 编辑
摘要: 1.当一个application提交时候,首先重建一个sparkcontext,向资源管理器申请executor资源(executor的memery and core 数量),Executor根据心跳发送到资源管理器上; 2.driver会为其根据rdd的依赖(宽依赖:rdd操作需要shuffle, 阅读全文
posted @ 2018-10-09 01:00 严康 阅读(315) 评论(0) 推荐(0) 编辑
摘要: drools规则引擎是基于rete算法的实现。 drools 按照我的想法是根据配置文件来写复杂逻辑的判断条件,方便改 应用场景: 应用于问题确定的场合; 适用于非流程性规则匹配; 规则引擎简易语法参考:http://blog.csdn.net/quzishen/article/details/61 阅读全文
posted @ 2017-04-13 16:48 严康 阅读(7278) 评论(2) 推荐(1) 编辑
摘要: 首先安装python2.7 查看python 版本 python安装地点 其实ubuntu自己集成了python2.7.12 node.js安装 node版本查看 阅读全文
posted @ 2017-02-22 14:59 严康 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 1.创建普通索引 查看索引 2.创建唯一索引 3.创建单列索引 4.创建组合索引 index multiIdx(id,name); 5.创建全文索引 fulltext index fullTexIdx(info); 6.添加索引 阅读全文
posted @ 2017-02-16 12:50 严康 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 1.查询所有字段 select * from 表名; 2.查询指定记录 where 可以使用 < in between and like 等; like 使用的时候,%可以匹配任意长度的字符。 3.查询空值 IS NULL IS NOT NULL 4.带AND 或者 OR 的多条件查询 mysql> 阅读全文
posted @ 2017-02-15 17:29 严康 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 1)数据库操作: 登陆mysql数据库 mysql -u root -p 展示所有数据库 show databases; 新建数据库 create database database_name; 删除数据库 drop database database_name; 2)数据库表操作 选择使用的数据库 阅读全文
posted @ 2017-02-14 21:14 严康 阅读(237) 评论(0) 推荐(0) 编辑