摘要:###setting.py中 ROBOTSTXT_OBEY = False ###guazispider.py import json from ..items import CarItem import scrapy from fake_headers import Headers header
阅读全文
摘要:安装pymysql 读取数据库数据进行pandas操作,并用seaborn和matplotlib进行画图
阅读全文
摘要:###Numpy和Pandas ####Numpy科学计算 Numpy 是一个专门用于矩阵化运算、科学计算的开源Python ####Pandas数据分析 pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数 pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据
阅读全文
摘要:###模块 ####Python程序架构 Python源代码文件:*.py 一个py文件是一个模块(module) 多个模块可以组成一个包(package) ####第三方工具包: ####创建packet包 创建的每一个packet包中会自带一个_init_.py模块,而且这个模块在import这
阅读全文
摘要:###选择结构 if,elif,else,使用时注意条件的先后顺序 通过缩进四个空格来区分代码块 # 从控制台输入 age = int(input("请输入一个年龄")) if age >= 18: print("成年") elif age < 0: print("输入错误") else: prin
阅读全文
摘要:###变量 ####命名规则 变量名必须是大小写英文字母、数字或下划线 _ 的组合,不能用数字开头,并且对大小写敏感 ####变量赋值 同一变量可以反复赋值,而且可以是不同类型的变量 i=2; i="name"; print(i) D:\ALanzhishujia\soft\python\pytho
阅读全文
摘要:###python安装 ###配置环境变量 ###验证一下 ###安装pycharm ###更换下载源 试一下安装numpy ###更新pip 说明pip可以更新 进行更新操作命令 ###PyCharm配置 更换一下字体大小
阅读全文
摘要:Kettle的安装及简单使用 一、kettle概述 1、什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 2、Kettle工程存储方式 (1)以XML形式存储 (2)以资源库方式存储(数据库资源库
阅读全文
摘要:APache Flume官网:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#memory-channel Flume的介绍 Flume简介 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
阅读全文
摘要:FlinkX的安装与简单使用 FlinkX的安装 安装unzip:yum install unzip 1、上传并解压 unzip flinkx-1.10.zip -d /usr/local/soft/ 2、配置环境变量 3、给bin/flinkx这个文件加上执行权限 chmod a+x flinkx
阅读全文
摘要:DataX的安装及使用 DataX的安装 DataX不需要依赖其他服务,直接上传、解压、安装、配置环境变量即可 也可以直接在windows上解压 DataX的使用 读写操作操作关键字内容:https://github.com/alibaba/DataX stream2stream 编写配置文件str
阅读全文
摘要:SQOOP安装 1、上传并解压 tar -zxvf sqoop-1.4.6.bin__hadoop-2.6.0.tar.gz -C /usr/local/soft/ 2、修改文件夹名字 mv sqoop-1.4.6.bin__hadoop-2.6.0/ sqoop-1.4.6 3、修改配置文件 #
阅读全文
摘要:###Phoenix连接 sqlline.py master,node1,node2 ###Phoenix常用命令 #显示表 !tabel #插入更新数据 upsert into table values(); #删除表数据 delete from table where 字段=''; #退出命令
阅读全文
摘要:###1、关闭Hbase集群,在master中执行 stop-hbase.sh ###2、上传解压配置环境变量 tar -zxvf apache-phoenix-4.15.0-HBase-1.4-bin.tar.gz -C /usr/local/soft/ 改名 mv apache-phoenix-
阅读全文
摘要:比较运算符 * LESS < * LESS_OR_EQUAL <= * EQUAL = * NOT_EQUAL <> * GREATER_OR_EQUAL >= * GREATER > * NO_OP 排除所有 六大比较过滤器 ###### BinaryComparator > 按字节索引顺序比较指
阅读全文
摘要:package hbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org.apac
阅读全文
摘要:宕机问题: MapReduce读写HBase HBase特点: 1.大:一个表可以有上亿行,上百万列 2.面向列:面向列表(蔟)的存储和权限控制,列(蔟)独立检索 3.稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计非常稀疏 4.无模式:每一行都有一个可以排序的主键和任意多的列,列
阅读全文
摘要:1.linux中 free -h:以适于人类可读方式显示内存信息。-h与其他命令最大不同是-h选项会在数字后面加上适于人类可读的单位 Mem:Memory机器的物理内存 swap:swap place,即交换区。当内存不够的时候,被踢出的进程被暂时存储到交换区。当需要这条被踢出的进程的时候,就从交换
阅读全文
摘要:行(row),列(Column),列蔟(Column Family),列标识符(Column Qualifier)和单元格(Cell) 行:由一个个行键(rowkey)和一个多个列组成。其中rowkey是按照字典顺序排序 列:列由列蔟(Column Family)和列限定符(Column Quali
阅读全文
摘要:Hadoop生态系统 HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同
阅读全文
摘要:Hbased的元数据保存在zookeeper 删除数据 hdfs hadoop dfs -rmr /hbase 删除元数据 zk zkCli.sh rmr /hbase 1.启动Hadoop集群 start-all.sh 2.启动zookeeper(三台都启动) zkServer.sh startz
阅读全文
摘要:分层设计 ODS(Operational Data Store):数据运营层 “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。 一般来讲,为了
阅读全文
摘要:Hive建表优化 1,分区,分桶 一般是按照业务日期进行分区 每天的数据放在一个分区里 2,一般使用外部表,避免数据误删 3,选择适当的文件储存格式及压缩格式 4,命名要规范 5,数据分层,表分离,但是也不要分的太散 Hive查询优化 分区裁剪 where过滤, 先过滤,后join 分区分桶, 合并
阅读全文