随笔分类 -  ETL_数据挖掘

ETL数据抽取之类的
摘要:ETL工具之Kettle将一个数据库中的数据提取到另外一个数据库中: 1.打开ETL文件夹,双击Spoon.bat启动Kettle 2.资源库选择,诺无则选择取消 3.选择关闭 4.新建一个转换 5.配置所需数据库 6.将需要进行提取的数据表,用表输入得到 7.选择源数据所在数据库及表,sql语句可 阅读全文
posted @ 2018-04-13 14:47 aspirant 阅读(13683) 评论(0) 推荐(0) 编辑
摘要:每次面试,互联网的面试官,经常问我有没有用过ETL,每次我都懵逼,说没用过,觉得是多么高大上的东东,数据仓储 今天查了一下,我晕,自己天天用的Kettle就是最典型的ETL, 可以实现不同数据库之间的数据抽取,转换,只需要你有相应的数据库driver即可 查了一下资料记录一下: ETL,是英文 Ex 阅读全文
posted @ 2018-04-13 14:40 aspirant 阅读(6352) 评论(1) 推荐(0) 编辑
摘要:Zookeeper到底是什么!? 学一个东西,不搞明白他是什么东西,哪还有心情学啊!! 首先,Zookeeper是Apache的一个java项目,属于Hadoop系统,扮演管理员的角色。 然后看到官网那些专有名词,实在理解不了。 在Zookeeper的官网上有这么一句话:ZooKeeper is a 阅读全文
posted @ 2018-03-07 15:28 aspirant 阅读(1386) 评论(0) 推荐(0) 编辑
摘要:假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。 Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件( 阅读全文
posted @ 2017-07-12 11:32 aspirant 阅读(15746) 评论(0) 推荐(3) 编辑
摘要:最近希望能够配置一下负载均衡,在虚拟机上面,但是网上找了很多资料很零散,对于不了解的人,很多不够详细,最近终于做好了,把具体的步骤写下来,方便各位网友查阅学习 这个实验需要安装nginx如果没有安装过,请参考: linux安装nginx:http://www.cnblogs.com/aspirant 阅读全文
posted @ 2017-04-20 20:04 aspirant 阅读(2319) 评论(0) 推荐(1) 编辑
摘要:我用的hadoop 是2.6.0 版本 ,hive 是 2.1.1版本进入;/home/zkpk/apache-hive-2.1.1-bin/执行hive 后报错: (1)Exception in thread "main" java.lang.RuntimeException: org.apach 阅读全文
posted @ 2017-03-25 11:26 aspirant 阅读(1930) 评论(0) 推荐(0) 编辑
摘要:今天想要学习一下大数据的知识,在windows 7上面 安装了VMware,然后安装了Centos系统,但是发现安装完了,无法上网 我在Centos上面 使用 ping www.baidu.com 始终无法ping通,于是上网一顿查资料发现,网上资料铺天盖地但是真正有用的,很少 虚拟机通过宿主机器上 阅读全文
posted @ 2017-03-18 14:10 aspirant 阅读(1531) 评论(0) 推荐(0) 编辑
摘要:http://www.oschina.net/p/webcollector/ 阅读全文
posted @ 2017-03-01 14:11 aspirant 阅读(1203) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示