摘要: 说明 MySQL – HDFS 导入整个数据表 (默认使用MySQL的3306端口) 导入查询结果 MySQL – Hive 实现原理:https://www.cnblogs.com/xuyou551/p/7998846.html 导入 整张数据表 到hive 导入数据表的 指定字段 到hive M 阅读全文
posted @ 2019-08-27 18:53 会走的树 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 创建kafka topic 注: partitions指定topic分区数,replication factor指定topic每个分区的副本数 partitions分区数: partitions :分区数,控制topic将分片成多少个log。可以显示指定,如果不指定则会使用broker(server 阅读全文
posted @ 2019-08-27 18:53 会走的树 阅读(156) 评论(0) 推荐(0) 编辑
摘要:  数据库操作 内部表 外部表 分区表 创建分区表 导入数据到分区表中 修改分区路径 删除分区 分区表的其他操作:https://www.cnblogs.com/one way/p/7550795.html 创建相同表结构的表 查看表信息 表操作 视图 查询 导入数据 执行脚本 shell使用Hiv 阅读全文
posted @ 2019-08-27 18:52 会走的树 阅读(246) 评论(0) 推荐(0) 编辑
摘要: Hbase常用命令:https://www.cnblogs.com/shadowalker/p/7350484.html 阅读全文
posted @ 2019-08-27 18:49 会走的树 阅读(75) 评论(0) 推荐(0) 编辑
摘要:  flume架构介绍 flume之所以这么神奇,是源于它自身的一个设计,这个设计就是agent,agent本身是一个 "Java" 进程,运行在日志收集节点—所谓日志收集节点就是服务器节点。 agent里面包含3个核心的组件:source— channel—– sink,类似生产者、仓库、消费者的 阅读全文
posted @ 2019-08-27 18:48 会走的树 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 系统准备 相关软件包下载: 链接:https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码:1tsf 说明 特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名 等同于 “maste 阅读全文
posted @ 2019-08-27 12:36 会走的树 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 正则表达式基本符号使用 特殊转义字母 | 特殊表达式序列 | 说明 | | | | | \A | 只在字符串开头进行匹配。 | | \b | 匹配位于开头或者结尾的空字符串 | | \B | 匹配不位于开头或者结尾的空字符串 | | \d | 匹配任意十进制数,相当于 [0 9] | | \D | 阅读全文
posted @ 2019-08-27 11:15 会走的树 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 安装lxml库 requests和xpath的使用 xpath选择符号 标签转换 阅读全文
posted @ 2019-08-27 11:13 会走的树 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 安装bs4库 request和BeautifulSoup组合使用 BeautifulSoup语法 解析器 获取并操作单个标签 获取标签 获取标签文本信息 获取父标签 获取标签属性信息 其他 ~~~python 将第一个找到的a标签下数内容和子节点打包成list lis = s.a.contents 阅读全文
posted @ 2019-08-27 11:12 会走的树 阅读(213) 评论(0) 推荐(0) 编辑
摘要:  安装request库 简单案例 请求方式 获取响应信息 格式化谷歌浏览器复制的请求头信息 cookies的解析和上面的思路类似。 传递请求参数 阅读全文
posted @ 2019-08-27 11:11 会走的树 阅读(341) 评论(0) 推荐(0) 编辑