上一页 1 ··· 63 64 65 66 67 68 69 70 71 ··· 74 下一页

spark学习笔记3

摘要: Spark 支持在集群范围内将数据集缓存至每一个节点的内存中,可避免数据传输,当数据需要重复访问时这个特征非常有用,例如查询体积小的“热”数据集,或是运行如 PageRank 的迭代算法。调用 cache(),就可以将数据集进行缓存: Spark SQL和 DataFrame可以用于处理结构化数据。 阅读全文
posted @ 2018-07-02 12:26 我和你并没有不同 阅读(145) 评论(0) 推荐(0) 编辑

AWS学习笔记

摘要: VPC :虚拟局域网 EC2 :虚拟机 RDS :关系型数据库的管理平台 ElasticCache: 缓存系统的管理平台 ELB :可伸缩的负载均衡(私有子网中的web服务通过elb暴露到公网中) AutoScaling: 管理自动伸缩的工具(管理EC2的数量) 阅读全文
posted @ 2018-07-01 08:27 我和你并没有不同 阅读(153) 评论(0) 推荐(0) 编辑

spark学习笔记2

摘要: SparkContext代表和一个集群的连接 在shell中SparkContext是自动创建好的,就是sc 阅读全文
posted @ 2018-06-30 17:50 我和你并没有不同 阅读(84) 评论(0) 推荐(0) 编辑

hadoop 学习笔记2

摘要: Hive vs Hadoop Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。 想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 阅读全文
posted @ 2018-06-28 22:15 我和你并没有不同 阅读(101) 评论(0) 推荐(0) 编辑

伪主备

摘要: 1、 2、 3、 单击升级按钮 4、升完级后 阅读全文
posted @ 2018-06-20 14:29 我和你并没有不同 阅读(214) 评论(0) 推荐(0) 编辑

tst

摘要: select count(*) from student where age>18 group by 性别 having count(*)>2 order by age where过滤的是行,having过滤的是分组select name,parent_name from student ,pare 阅读全文
posted @ 2018-06-20 11:45 我和你并没有不同 阅读(209) 评论(0) 推荐(0) 编辑

airflow

摘要: 基于airflow官方镜像制作自己的镜像,如给镜像安装pymongo FROM 10.60.10.119:5000/common/air_grpc:0.0.2 USER 0 RUN pip install pymongo USER airflow 镜像里都装了啥,可以通过docker history 阅读全文
posted @ 2018-06-17 15:35 我和你并没有不同 阅读(378) 评论(0) 推荐(0) 编辑

hadoop 学习笔记

摘要: 参考资料:《Hadoop 权威指南》 1 map处理完后,hadoop框架会将结果安装键进行排序,然后将排好的结果传给reduce 2 需要低延迟的应用不适合HDFS,对于低延迟应用HBase更适合 3 HDFS中的文件只有一个写入者,而且写操作总是在文件的末尾,不支持多个写入者或在文件任意位置修改 阅读全文
posted @ 2018-06-09 11:55 我和你并没有不同 阅读(126) 评论(0) 推荐(0) 编辑

Python多线程中阻塞(join)与锁(Lock)的使用误区

摘要: 参考资料:https://blog.csdn.net/cd_xuyue/article/details/52052893 1使用两个循环分别处理start和join函数.即可实现并发. 2 要保证锁对于多个子线程来说是共用的,即不要在Thread的子类内部创建锁. 阅读全文
posted @ 2018-06-07 22:05 我和你并没有不同 阅读(1023) 评论(0) 推荐(0) 编辑

H2O 笔记之使用(非基于hadoop)

该文被密码保护。 阅读全文
posted @ 2018-06-06 19:22 我和你并没有不同 阅读(8) 评论(0) 推荐(0) 编辑
上一页 1 ··· 63 64 65 66 67 68 69 70 71 ··· 74 下一页