2020 年 1月随笔档案 - 骑者赶路

Tableau

摘要：tableau 四种基本类型 String 用单引号括起来。 'hello,world' ，字符串有单引号怎么办，单引号两次 'hello''world' Boolean TRUE/FALSE Number 整形或者浮点型，不区分 Datetime/Date 强制将字符串识别为日期，前面加# '#3 阅读全文

posted @ 2020-01-31 20:59 骑者赶路阅读(1567) 评论(0) 推荐(0) 编辑

Hive sql

摘要：GROUP BY 语句合计函数 (比如 SUM) 常常需要添加 GROUP BY 语句。 GROUP BY 语句用于结合合计函数，根据一个或多个列对结果集进行分组。 HAVING 子句在 SQL 中增加 HAVING 子句原因是，WHERE 关键字无法与合计函数一起使用。 WHERE子句：在分组阅读全文

posted @ 2020-01-10 12:37 骑者赶路阅读(539) 评论(0) 推荐(0) 编辑

Hive严格模式

摘要：https://blog.csdn.net/lzm1340458776/article/details/43233639 永久设置严格模式阅读全文

posted @ 2020-01-09 18:50 骑者赶路阅读(202) 评论(0) 推荐(0) 编辑

Hive 分区表和分桶表

摘要：一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。这里说明一下分区表并 Hive 独有的概念，实际上这个概念阅读全文

posted @ 2020-01-09 18:36 骑者赶路阅读(661) 评论(0) 推荐(0) 编辑

hive

摘要：Hive常用函数大全一览 https://www.iteblog.com/archives/2258.html Hive 启动步骤1 start-all.sh 打开hadoop集群步骤2 jps 查看进程有没有正常启动步骤3 切到hive的安装目录下，bin/hive 打开hive 步骤4 s 阅读全文

posted @ 2020-01-09 17:25 骑者赶路阅读(219) 评论(0) 推荐(0) 编辑

Hive内部表与外部表区别详解

摘要：hive建表时，被external修饰的为外部表（external table），未被external修饰的是内部表（managed table）。二者区别：内部表数据由Hive自身管理，外部表数据则由HDFS管理； ①、内部表数据存储的位置是hive.metastore.warehouse.d 阅读全文

posted @ 2020-01-09 17:13 骑者赶路阅读(715) 评论(0) 推荐(0) 编辑

HDFS

摘要：https://www.cnblogs.com/bainianminguo/p/11986605.html 阅读全文

posted @ 2020-01-09 16:48 骑者赶路阅读(138) 评论(0) 推荐(0) 编辑

Hadoop

摘要：MapReduce shuffle过程详解 https://blog.csdn.net/u014374284/article/details/49205885 HDFS中dfs 命令 https://blog.csdn.net/yf289178199/article/details/75270583 阅读全文

posted @ 2020-01-08 22:46 骑者赶路阅读(175) 评论(0) 推荐(0) 编辑

Tableau

摘要：场景一：显示内部占比度量值下三角 --> 快速表计算（总额百分比） --> 计算依据表向下场景二：更改显示数量级度量值下三角 --> 设置格式场景三：求日期差值 DATEDIFF('day','x',y) 场景四：case的用法，一个应用场景是文本类型转换数值类型 CASE [test] 阅读全文

posted @ 2020-01-05 17:54 骑者赶路阅读(159) 评论(0) 推荐(0) 编辑

文本分类实战

摘要：# 文本分析项目实战 # 背景：根据新闻文本中的内容，进行文本预处理，建模操作，从而可以自动将新闻划分到最 # 可能的类别中，节省人力资源。 # 具体实现内容： # 能够对文本数据进行预处理【文本清洗(正则)，分词(jieba)，去除停用词，文本向量化(TfidfVectorizer)】 # 能够通过统计词频，生成词云图。【描述性统计分析】 chain，counter。哪个词出现多，在这一部实现阅读全文

posted @ 2020-01-03 19:18 骑者赶路阅读(380) 评论(0) 推荐(0) 编辑

文本预处理去除标点符号

摘要：#!/usr/bin/env python # coding=utf-8 from string import punctuation import re import sys reload(sys) sys.setdefaultencoding('utf-8') import codecs # 英文标点符号+中文标点符号 punc = punctuation + u'.,;《》？！“”‘... 阅读全文

posted @ 2020-01-02 15:39 骑者赶路阅读(762) 评论(0) 推荐(0) 编辑

anoconda 安装jieba库

摘要：conda install -c conda-forge jieba 阅读全文

posted @ 2020-01-02 15:23 骑者赶路阅读(325) 评论(0) 推荐(0) 编辑

01 2020 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论