ETL_数据挖掘 - 随笔分类 - aspirant

ETL工具之Kettle的简单使用一(不同数据库之间的数据抽取-转换-加载)

摘要：ETL工具之Kettle将一个数据库中的数据提取到另外一个数据库中： 1.打开ETL文件夹，双击Spoon.bat启动Kettle 2.资源库选择，诺无则选择取消 3.选择关闭 4.新建一个转换 5.配置所需数据库 6.将需要进行提取的数据表，用表输入得到 7.选择源数据所在数据库及表，sql语句可阅读全文

posted @ 2018-04-13 14:47 aspirant 阅读(13870) 评论(0) 推荐(0)

ETL技术( Extract-Transform-Load) 数据仓库技术-比如kettle

摘要：每次面试，互联网的面试官，经常问我有没有用过ETL,每次我都懵逼，说没用过，觉得是多么高大上的东东，数据仓储今天查了一下，我晕，自己天天用的Kettle就是最典型的ETL，可以实现不同数据库之间的数据抽取，转换，只需要你有相应的数据库driver即可查了一下资料记录一下： ETL，是英文 Ex 阅读全文

posted @ 2018-04-13 14:40 aspirant 阅读(6639) 评论(1) 推荐(0)

Zookeeper原理架构

摘要：Zookeeper到底是什么！？学一个东西，不搞明白他是什么东西，哪还有心情学啊！！首先，Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。然后看到官网那些专有名词，实在理解不了。在Zookeeper的官网上有这么一句话：ZooKeeper is a 阅读全文

posted @ 2018-03-07 15:28 aspirant 阅读(1404) 评论(0) 推荐(0)

面试- 阿里-. 大数据题目- 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?

摘要：假如每个url大小为10bytes，那么可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，所以不可能将其完全加载到内存中处理，可以采用分治的思想来解决。 Step1：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件( 阅读全文

posted @ 2017-07-12 11:32 aspirant 阅读(15935) 评论(0) 推荐(3)

linux 负载均衡配置 keepalive lvs 使用nginx转发 CentOS7 搭建LVS+keepalived负载均衡

摘要：最近希望能够配置一下负载均衡，在虚拟机上面，但是网上找了很多资料很零散，对于不了解的人，很多不够详细，最近终于做好了，把具体的步骤写下来，方便各位网友查阅学习这个实验需要安装nginx如果没有安装过，请参考： linux安装nginx:http://www.cnblogs.com/aspirant 阅读全文

posted @ 2017-04-20 20:04 aspirant 阅读(2398) 评论(0) 推荐(1)

Hadoop 2.6.0 HIVE 2.1.1配置

摘要：我用的hadoop 是2.6.0 版本，hive 是 2.1.1版本进入；/home/zkpk/apache-hive-2.1.1-bin/执行hive 后报错：（1）Exception in thread "main" java.lang.RuntimeException: org.apach 阅读全文

posted @ 2017-03-25 11:26 aspirant 阅读(1961) 评论(0) 推荐(0)

VMware 虚拟机不能上网 CentOS 6.5 Windows 7上面安装了VMware，然后安装了CentOS系统，安装完了无法上网；

摘要：今天想要学习一下大数据的知识，在windows 7上面安装了VMware,然后安装了Centos系统，但是发现安装完了，无法上网我在Centos上面使用 ping www.baidu.com 始终无法ping通，于是上网一顿查资料发现，网上资料铺天盖地但是真正有用的，很少虚拟机通过宿主机器上阅读全文

posted @ 2017-03-18 14:10 aspirant 阅读(1563) 评论(0) 推荐(0)

WebCollector- Java 经典爬虫-教程

摘要：http://www.oschina.net/p/webcollector/ 阅读全文

posted @ 2017-03-01 14:11 aspirant 阅读(1214) 评论(0) 推荐(0)

朝北教室的风筝

用心做每一件事

随笔分类 - ETL_数据挖掘

公告