2019 年 7月 19 日随笔档案 - 农夫三拳有點疼

Python基础(二)

该文被密码保护。阅读全文

posted @ 2019-07-19 17:36 农夫三拳有點疼阅读(4) 评论(0) 推荐(0) 编辑

Python基础(一)

该文被密码保护。阅读全文

posted @ 2019-07-19 17:35 农夫三拳有點疼阅读(0) 评论(0) 推荐(0) 编辑

web.py

摘要： From：https://www.oschina.net/question/5189_4306Web.py github 地址：https://github.com/webpy/webpy https://pypi.python.org/pypi/web.py Web.py Cookbook 简体中阅读全文

posted @ 2019-07-19 17:34 农夫三拳有點疼阅读(127) 评论(0) 推荐(0) 编辑

Matplotlib

摘要： 0Matplotlib介绍 Matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。 1Matplotlib基本操作 1.1 空白图形 1.1 空白图形测试结果： 1.2读取数据展示 it01.csv提供数据 name,confid 阅读全文

posted @ 2019-07-19 17:33 农夫三拳有點疼阅读(176) 评论(0) 推荐(0) 编辑

Numpy

摘要： 0. NumPy介绍 NumPy是Python的一个高性能科学计算和数据分析基础库，提供了功能强大的多维数组对象ndarray。引入numpy，并重命名为np，方便使用 import numpy as np 1. 创建数组 1.1使用numpy内置的array函数创建数组创建一维数组 arr1 阅读全文

posted @ 2019-07-19 17:24 农夫三拳有點疼阅读(300) 评论(0) 推荐(0) 编辑

pandas

摘要： 0 pandas介绍 Pandas是一款开放源码的BSD许可的Python库，为Python编程语言提供了高性能，易于使用的数据结构和数据分析工具。使用import pandas as pd导入pandas包并且起个响亮的名字pd 1 读取数据的方式 1.1准备数据表csv文件 it01.csv 1 阅读全文

posted @ 2019-07-19 17:10 农夫三拳有點疼阅读(158) 评论(0) 推荐(0) 编辑

6 MapReduce的理解

摘要： 0 MapReduce的定义源自于Google的MapReduce论文发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 MapReduce特点易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理 MapReduce不擅长的方面实时阅读全文

posted @ 2019-07-19 16:09 农夫三拳有點疼阅读(185) 评论(0) 推荐(0) 编辑

7 MapReduce案例

摘要： 1 java编程步骤导入需要jar包找到一个模板例子复制为我们的word count类 import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apac 阅读全文

posted @ 2019-07-19 16:08 农夫三拳有點疼阅读(24) 评论(0) 推荐(0) 编辑

1 虚拟机及CentOs7配置

摘要： Begin 准备工作a)下载VMware workstation14 b)下载CentOS7CentOS7c)下载xshell、xftp安装参考最好改成单文件储存，不容易出问题分区设置补充1 nat网络设置（注意如果不在意网络IP冲突问题可以使用桥接模式，方便使用，就不用配置下面的东西了）下面阅读全文

posted @ 2019-07-19 16:01 农夫三拳有點疼阅读(38) 评论(0) 推荐(0) 编辑

2 安装JDK

摘要： JDK下载路径http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop源码包下载http://mirror.bit.edu.cn/apache/hadoop/common安装之前检查是否有java环境 1进入如阅读全文

posted @ 2019-07-19 15:59 农夫三拳有點疼阅读(9) 评论(0) 推荐(0) 编辑

3 hadoop集群环境搭建

摘要： http://archive.apache.org/dist/ 1目前为止然后为了避免路由网络传输出现问题 >集群机器关闭防火墙清空系统防火墙iptables -Liptables -F 保存防火墙配置service iptables save 如果上述命令执行失败报出：The service 阅读全文

posted @ 2019-07-19 15:57 农夫三拳有點疼阅读(7) 评论(0) 推荐(0) 编辑

4 HDFS概念及命令

摘要： 1 HDFS基本思想 1.1 早期文件服务器从上图中，我们可以看出，存储一个文件，我们一直往一个机子上面存是不够的，那么我们在储存量不够的时候就会加机子。但是如果一个文件放在一台机子上，如果该机器挂了，那么文件就丢失了，不安全。所以我们会把一个文件放在多台机子上，创建一个索引文件来储存文件的指针，阅读全文

posted @ 2019-07-19 15:56 农夫三拳有點疼阅读(11) 评论(0) 推荐(0) 编辑

5 HDFS--JavaAPI

摘要： hdfs在生产应用中主要是客户端的开发，其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象，然后通过该客户端对象操作（增删改查）HDFS上的文件 1 搭建maven开发环境 pom.xml参考 <dependency> <groupId>org.apache.hadoop</gro 阅读全文

posted @ 2019-07-19 15:55 农夫三拳有點疼阅读(24) 评论(0) 推荐(0) 编辑

13 Hive案例

摘要： 1 DDL数据定义语言 1.1 创建数据库 1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive; 2）避免要创建的数据库已经存在错误，增加if not exists判阅读全文

posted @ 2019-07-19 15:47 农夫三拳有點疼阅读(15) 评论(0) 推荐(0) 编辑

14 Zookeeper的理解

摘要：一、 Zookeeper概念 1 Zookeeper Zookeeper是什么 Zookeeper特点哪些系统用到了Zookeeper HDFS YARN Storm HBase Flume Dubbo（阿里巴巴） metaq阿里巴巴） 2 Zookeeper架构 Zookeeper 架构 Zoo 阅读全文

posted @ 2019-07-19 15:39 农夫三拳有點疼阅读(19) 评论(0) 推荐(0) 编辑

16 Hbase案例

摘要：基本操作进入互交命令hbase shell 创建一张表和列簇create 'm_table','meta_data','action' 50070端口查看文件查看表结构desc 'm_table' 再添加一个列簇alter 'm_table',{NAME=>'cf_new',VERSIONS=> 阅读全文

posted @ 2019-07-19 15:23 农夫三拳有點疼阅读(24) 评论(0) 推荐(0) 编辑

19 Kafka案例

摘要： 1 基本操作 1.1查看topic列表: kafka-topics.sh --zookeeper master:2181,slave1:2181,slave2:2181 --list 1.2创建topic: kafka-topics.sh --zookeeper master:2181,slave1 阅读全文

posted @ 2019-07-19 15:16 农夫三拳有點疼阅读(9) 评论(0) 推荐(0) 编辑

21 Storm案例

摘要： demo1 wc累加案例 pom.xml 注意运行时报错java.lang.ClassNotFoundException: backtype.storm.topology.IRichSpout。注释掉作用域注意运行时报错java.lang.NoSuchMethodError: com.lmax.d 阅读全文

posted @ 2019-07-19 15:07 农夫三拳有點疼阅读(40) 评论(0) 推荐(0) 编辑

22 Flume+Kafka+Storm案例

摘要： 1 整合demo 1.1 Flume操作 1)在Flume的conf目录下，新建fk.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = av 阅读全文

posted @ 2019-07-19 15:05 农夫三拳有點疼阅读(6) 评论(0) 推荐(0) 编辑

10 Spark的理解

摘要： 1、Spark是一个计算框架 MR是批量计算框架，Spark-Core是批量计算框架 Spark相比MR速度快，MR作为一个job，在中间环节中结果是落地的（会经过磁盘交换），Spark计算过程中数据流转都是在内存的（减少了对HDFS的依赖） MR：多进程模型（缺点：每个任务启动时间长，所以不适合于阅读全文

posted @ 2019-07-19 14:59 农夫三拳有點疼阅读(43) 评论(0) 推荐(0) 编辑

导航