01 2020 档案
摘要:tableau 四种基本类型 String 用单引号括起来。 'hello,world' ,字符串有单引号怎么办,单引号两次 'hello''world' Boolean TRUE/FALSE Number 整形或者浮点型,不区分 Datetime/Date 强制将字符串识别为日期,前面加# '#3
阅读全文
摘要:GROUP BY 语句 合计函数 (比如 SUM) 常常需要添加 GROUP BY 语句。 GROUP BY 语句用于结合合计函数,根据一个或多个列对结果集进行分组。 HAVING 子句 在 SQL 中增加 HAVING 子句原因是,WHERE 关键字无法与合计函数一起使用。 WHERE子句:在分组
阅读全文
摘要:https://blog.csdn.net/lzm1340458776/article/details/43233639 永久设置严格模式
阅读全文
摘要:一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能。 这里说明一下分区表并 Hive 独有的概念,实际上这个概念
阅读全文
摘要:Hive常用函数大全一览 https://www.iteblog.com/archives/2258.html Hive 启动 步骤1 start-all.sh 打开hadoop集群 步骤2 jps 查看进程有没有正常启动 步骤3 切到hive的安装目录下,bin/hive 打开hive 步骤4 s
阅读全文
摘要:hive建表时,被external修饰的为外部表(external table),未被external修饰的是内部表(managed table)。 二者区别: 内部表数据由Hive自身管理,外部表数据则由HDFS管理; ①、内部表数据存储的位置是hive.metastore.warehouse.d
阅读全文
摘要:https://www.cnblogs.com/bainianminguo/p/11986605.html
阅读全文
摘要:MapReduce shuffle过程详解 https://blog.csdn.net/u014374284/article/details/49205885 HDFS中dfs 命令 https://blog.csdn.net/yf289178199/article/details/75270583
阅读全文
摘要:场景一:显示内部占比 度量值下三角 --> 快速表计算(总额百分比) --> 计算依据 表向下 场景二:更改显示数量级 度量值下三角 --> 设置格式 场景三:求日期差值 DATEDIFF('day','x',y) 场景四:case的用法,一个应用场景是文本类型转换数值类型 CASE [test]
阅读全文
摘要:# 文本分析项目实战 # 背景:根据新闻文本中的内容,进行文本预处理,建模操作,从而可以自动将新闻划分到最 # 可能的类别中,节省人力资源。 # 具体实现内容: # 能够对文本数据进行预处理【文本清洗(正则),分词(jieba),去除停用词,文本向量化(TfidfVectorizer)】 # 能够通过统计词频,生成词云图。【描述性统计分析】 chain,counter。 哪个词出现多,在这一部实现
阅读全文
摘要:#!/usr/bin/env python # coding=utf-8 from string import punctuation import re import sys reload(sys) sys.setdefaultencoding('utf-8') import codecs # 英文标点符号+中文标点符号 punc = punctuation + u'.,;《》?!“”‘...
阅读全文
摘要:conda install -c conda-forge jieba
阅读全文