随笔档案「2021年10月」 - 糟糟张

爬取瓜子二手车代码

摘要：###setting.py中 ROBOTSTXT_OBEY = False ###guazispider.py import json from ..items import CarItem import scrapy from fake_headers import Headers header 阅读全文

posted @ 2021-10-31 16:44 糟糟张阅读(707) 评论(0) 推荐(0)

sql数据处理

摘要：安装pymysql 读取数据库数据进行pandas操作，并用seaborn和matplotlib进行画图阅读全文

posted @ 2021-10-29 20:19 糟糟张阅读(78) 评论(0) 推荐(0)

Pandas核心用法

摘要：###Numpy和Pandas ####Numpy科学计算 Numpy 是一个专门用于矩阵化运算、科学计算的开源Python ####Pandas数据分析 pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数 pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据阅读全文

posted @ 2021-10-29 00:22 糟糟张阅读(182) 评论(0) 推荐(1)

Python语法3

摘要：###模块 ####Python程序架构 Python源代码文件:*.py 一个py文件是一个模块(module) 多个模块可以组成一个包(package） ####第三方工具包： ####创建packet包创建的每一个packet包中会自带一个_init_.py模块，而且这个模块在import这阅读全文

posted @ 2021-10-27 15:26 糟糟张阅读(53) 评论(0) 推荐(0)

Python语法2

摘要：###选择结构 if，elif，else，使用时注意条件的先后顺序通过缩进四个空格来区分代码块 # 从控制台输入 age = int(input("请输入一个年龄")) if age >= 18: print("成年") elif age < 0: print("输入错误") else: prin 阅读全文

posted @ 2021-10-26 23:15 糟糟张阅读(82) 评论(0) 推荐(0)

Python语法1

摘要：###变量 ####命名规则变量名必须是大小写英文字母、数字或下划线 _ 的组合，不能用数字开头，并且对大小写敏感 ####变量赋值同一变量可以反复赋值，而且可以是不同类型的变量 i=2; i="name"; print(i) D:\ALanzhishujia\soft\python\pytho 阅读全文

posted @ 2021-10-25 23:09 糟糟张阅读(90) 评论(0) 推荐(0)

Python和PyCharm安装

摘要：###python安装 ###配置环境变量 ###验证一下 ###安装pycharm ###更换下载源试一下安装numpy ###更新pip 说明pip可以更新进行更新操作命令 ###PyCharm配置更换一下字体大小阅读全文

posted @ 2021-10-25 19:04 糟糟张阅读(72) 评论(0) 推荐(1)

kettle使用

摘要：Kettle的安装及简单使用一、kettle概述 1、什么是kettle Kettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。 2、Kettle工程存储方式（1）以XML形式存储（2）以资源库方式存储(数据库资源库阅读全文

posted @ 2021-10-24 15:05 糟糟张阅读(1250) 评论(0) 推荐(1)

Flume介绍安装使用

摘要：APache Flume官网：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#memory-channel Flume的介绍 Flume简介 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。阅读全文

posted @ 2021-10-22 22:23 糟糟张阅读(172) 评论(0) 推荐(0)

FlinkX

摘要：FlinkX的安装与简单使用 FlinkX的安装安装unzip：yum install unzip 1、上传并解压 unzip flinkx-1.10.zip -d /usr/local/soft/ 2、配置环境变量 3、给bin/flinkx这个文件加上执行权限 chmod a+x flinkx 阅读全文

posted @ 2021-10-21 19:52 糟糟张阅读(434) 评论(0) 推荐(0)

DATAX

摘要：DataX的安装及使用 DataX的安装 DataX不需要依赖其他服务，直接上传、解压、安装、配置环境变量即可也可以直接在windows上解压 DataX的使用读写操作操作关键字内容：https://github.com/alibaba/DataX stream2stream 编写配置文件str 阅读全文

posted @ 2021-10-21 19:22 糟糟张阅读(438) 评论(0) 推荐(0)

SQOOP

摘要：SQOOP安装 1、上传并解压 tar -zxvf sqoop-1.4.6.bin__hadoop-2.6.0.tar.gz -C /usr/local/soft/ 2、修改文件夹名字 mv sqoop-1.4.6.bin__hadoop-2.6.0/ sqoop-1.4.6 3、修改配置文件 # 阅读全文

posted @ 2021-10-19 21:38 糟糟张阅读(152) 评论(0) 推荐(0)

Phoenix使用

摘要：###Phoenix连接 sqlline.py master,node1,node2 ###Phoenix常用命令 #显示表 !tabel #插入更新数据 upsert into table values(); #删除表数据 delete from table where 字段=''; #退出命令阅读全文

posted @ 2021-10-17 19:23 糟糟张阅读(462) 评论(0) 推荐(0)

Phoenix安装

摘要：###1、关闭Hbase集群，在master中执行 stop-hbase.sh ###2、上传解压配置环境变量 tar -zxvf apache-phoenix-4.15.0-HBase-1.4-bin.tar.gz -C /usr/local/soft/ 改名 mv apache-phoenix- 阅读全文

posted @ 2021-10-14 20:11 糟糟张阅读(101) 评论(0) 推荐(0)

HBase过滤器

摘要：比较运算符 * LESS < * LESS_OR_EQUAL <= * EQUAL = * NOT_EQUAL <> * GREATER_OR_EQUAL >= * GREATER > * NO_OP 排除所有六大比较过滤器 ###### BinaryComparator > 按字节索引顺序比较指阅读全文

posted @ 2021-10-13 16:33 糟糟张阅读(127) 评论(0) 推荐(0)

HBase API

摘要：package hbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org.apac 阅读全文

posted @ 2021-10-11 23:43 糟糟张阅读(189) 评论(0) 推荐(0)

HBase面试

摘要：宕机问题： MapReduce读写HBase HBase特点： 1.大：一个表可以有上亿行，上百万列 2.面向列：面向列表（蔟）的存储和权限控制，列（蔟）独立检索 3.稀疏：对于为空（NULL）的列，并不占用存储空间，因此，表可以设计非常稀疏 4.无模式：每一行都有一个可以排序的主键和任意多的列，列阅读全文

posted @ 2021-10-11 18:55 糟糟张阅读(100) 评论(0) 推荐(0)

杂1

摘要：1.linux中 free -h：以适于人类可读方式显示内存信息。-h与其他命令最大不同是-h选项会在数字后面加上适于人类可读的单位 Mem：Memory机器的物理内存 swap：swap place，即交换区。当内存不够的时候，被踢出的进程被暂时存储到交换区。当需要这条被踢出的进程的时候，就从交换阅读全文

posted @ 2021-10-10 20:59 糟糟张阅读(337) 评论(0) 推荐(0)

HBase常用shell操作

摘要：行（row），列（Column），列蔟（Column Family），列标识符（Column Qualifier）和单元格（Cell）行：由一个个行键（rowkey）和一个多个列组成。其中rowkey是按照字典顺序排序列：列由列蔟（Column Family）和列限定符（Column Quali 阅读全文

posted @ 2021-10-10 15:12 糟糟张阅读(663) 评论(0) 推荐(0)

HBase基础

摘要：Hadoop生态系统 HBase简介 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同阅读全文

posted @ 2021-10-10 09:43 糟糟张阅读(139) 评论(0) 推荐(0)

Hbase安装

摘要：Hbased的元数据保存在zookeeper 删除数据 hdfs hadoop dfs -rmr /hbase 删除元数据 zk zkCli.sh rmr /hbase 1.启动Hadoop集群 start-all.sh 2.启动zookeeper（三台都启动） zkServer.sh startz 阅读全文

posted @ 2021-10-09 18:47 糟糟张阅读(77) 评论(0) 推荐(0)

Hive数仓

摘要：分层设计 ODS（Operational Data Store）：数据运营层 “面向主题的”数据运营层，也叫ODS层，是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的 ETL 之后，装入本层。本层的数据，总体上大多是按照源头业务系统的分类方式而分类的。一般来讲，为了阅读全文

posted @ 2021-10-08 22:56 糟糟张阅读(181) 评论(0) 推荐(0)

Hive调优

摘要：Hive建表优化 1，分区，分桶一般是按照业务日期进行分区每天的数据放在一个分区里 2，一般使用外部表，避免数据误删 3，选择适当的文件储存格式及压缩格式 4，命名要规范 5，数据分层，表分离，但是也不要分的太散 Hive查询优化分区裁剪 where过滤，先过滤，后join 分区分桶，合并阅读全文

posted @ 2021-10-08 21:32 糟糟张阅读(146) 评论(0) 推荐(0)

再多学一点吧

导航

公告

10 2021 档案