上一页 1 2 3 4 5 6 ··· 17 下一页
摘要: 堆栈(Stack):是一种线性数据结构,其数据遵循后进先出(last in first out)的原则。典型的应用比如说网页的“后退”按钮,其储存了依次浏览过的网页url(进栈),在按后退按钮时则实施出栈操作。 python实现: class Stack: def __init__(self): s 阅读全文
posted @ 2021-02-27 20:50 HuZihu 阅读(780) 评论(0) 推荐(0) 编辑
摘要: 数组(Array): 是一种线性数据结构,其数据占据连续且空余(back to back & free)的内存位置。 数组分为静态数组和动态数组: 静态(static):每个item占据相同宽度的内存位置。其支持的语言比如Java。 动态(dynamic):每个item占据的内存位置要比所需的多,通 阅读全文
posted @ 2021-02-27 17:17 HuZihu 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 以下是经常用到的SQL增删改语句(适用于MySQL): 插入数据: INSERT INTO table_name <col_name> VALUES (...) 插入单行数据:INSERT INTO ... VALUES (...) 插入多行数据:INSERT INTO ... VALUES (.. 阅读全文
posted @ 2021-02-21 14:29 HuZihu 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 查找重复记录: 1,重复记录根据单个字段来判断 在People表中,a列中的值重复即算重复记录: SELECT a, COUNT(*) FROM People GROUP BY a HAVING COUNT(*) > 1 2,重复记录根据多个字段来判断 在People表中,a列和b列中的值都重复即算 阅读全文
posted @ 2021-01-14 13:04 HuZihu 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 什么是异常值? 对于定性变量来说,异常值是出现次数非常少的类别;对于定量变量来说,异常值是明显大于或小于其他观测值的数值。 异常值产生的原因: a. 人为错误:在数据收集,记录或输入过程中导致的错误。 b. 测量误差: 当使用的测量仪器出现故障时,会引起这种情况,这是异常值最常见的来源。 c. 实验 阅读全文
posted @ 2021-01-06 15:35 HuZihu 阅读(4325) 评论(0) 推荐(0) 编辑
摘要: 什么是数据倾斜(Data Skew)? 数据倾斜是指在原本应该并行处理的数据集中,某一部分的数据显著多于其它部分,从而使得该部分数据的处理速度成为整个数据集处理的瓶颈。 假设数据分布不均匀,某个key对应几十万条数据,其他key对应几百条或几十条数据,那么在处理数据的时候,大量相同的key会被分配( 阅读全文
posted @ 2020-04-22 15:36 HuZihu 阅读(6474) 评论(0) 推荐(2) 编辑
摘要: 首先,这里说的Hive指的是Hive on Mapreduce。(此外,还有Hive on Spark,区别只是后者把执行计划放到spark集群上运行。) Hive是一种数据仓库软件,能够协助读写、管理那些存储在分布式存储系统上的大数据集。 Hive架构在Hadoop之上,底层存储在HDFS上,底层 阅读全文
posted @ 2020-04-22 15:20 HuZihu 阅读(424) 评论(0) 推荐(0) 编辑
摘要: 公共表表达式(CTEs)是一个命名的临时结果集。CTE不作为对象存储,仅在查询执行期间持续。 有时我们在处理一些复杂查询的时候,需要把查询内容一步步分解,最后计算出想要的结果。因此我们需要保存这些中间数据,但是计算出最后结果之后这些数据就没用了,因此我们需要把这些中间计算过程保存在一个临时的结果集里 阅读全文
posted @ 2020-03-31 14:38 HuZihu 阅读(1503) 评论(0) 推荐(0) 编辑
摘要: topN问题是SQL面试里经常考的一个问题,即如何取每组最大的N条记录。 这里摘取leetcode上的一道题,因为主要为了说明如何选取topN的记录,因此这里删掉了第二张表(不需要进行两表连接)。 题目:根据Employee表中的信息,找出每个部门工资前三高的员工信息(部门号,姓名,工资) | Id 阅读全文
posted @ 2020-03-30 12:43 HuZihu 阅读(1213) 评论(2) 推荐(0) 编辑
摘要: 分页实际上就是从结果集中截取当前所需要展示的那部分内容。 为什么需要进行分页查询?当使用SELECT查询时,如果结果集数据量很大,比如有上万条记录,一次性查询所有结果会变得很慢,因此需要使用分页查询。 分页查询的几种方式: 1,限定+偏移(LIMIT ... OFFSET ...) 首先确定每页需要 阅读全文
posted @ 2020-03-23 14:40 HuZihu 阅读(499) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 17 下一页