摘要:
系统和其它层面:让经常where的字段进行分区,合理的多分桶、数据使用压缩、建宽表的时候用列式的orc存储、 开启严格模式:会产生笛卡尔积、order by排序后未加limit、查询分区表时未指定列的HiveSQL语句直接执行出错 开启列裁剪和分区裁剪:即只查询要读取的列和分区,避免全表扫描或全列扫 阅读全文
摘要:
一、数据类型和‘==’1. 基本数据类型(也称原始数据类型): byte,short,char,int,long,float,double,boolean等等 基本数据类型,用“==”比较的时候,比较的就是他们的值 比如 int a = 10; int b = 10; a == b? 10等于10, 阅读全文
摘要:
TCP:传输控制协议(Transmission Control Protocol)1.Tcp是面向连接的运输层协议,这就是说,应用程序在使用TCP提供的服务传送数据之前,必须先建立TCP连接。建立连接的目的是通信双方为接下来的数据传输传做好装备,初始化各种状态变量,分配资源等等,在传输数据完毕后,必 阅读全文
摘要:
HTTP 状态码 当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含 HTTP 状态码的信息头(server header)用以响应浏览器的请求。HTTP 状态码的英文为 HTTP Status Code。HTTP状态码,可以 阅读全文
摘要:
1、fs、dfs区别? (1) fs是文件系统, dfs是分布式文件系统。 (2) fs > dfs。 (3) 分布式环境情况下,fs与dfs无区别。 (4) 本地环境中,fs就是本地文件,dfs就不能用了。 (5) fs涉及到一个通用的文件系统,可以指向任何的文件系统如local,HDFS等。但是 阅读全文
摘要:
一、索引 索引与书的目录非常的相似,由数据表中的一列和多列组合组成(单列索引和组合索引),创建索引的目的是为了优化数据库的查询速度,提高性能的最常用的工具。其中,用户创建索引指向数据库中具体数据所在位置。当用户通过查询数据库中的数据时,就不需要遍历所有数据库中的所有数据,这样提高查询效率。但是创建索 阅读全文
摘要:
一、传统数据库 每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的地方。同样的,数据库是存放大量数据的地方。数据库 (Database)是按照数据结构来组织、存储和管理数据的仓库。它具有数据结构化,数据共享度高,冗余度低,易于扩展,数据独立性高等特点。数据库是为捕获数据而设计的,它是面向 阅读全文
摘要:
spider.py:爬取数据代码 1 import urllib.request 2 import urllib.error 3 from bs4 import BeautifulSoup 4 import re 5 import pymysql 6 7 # 希望得到的网页数据的规范 8 findL 阅读全文
摘要:
【硬连接】 在Linux的文件系统中,保存在磁盘分区中的实际文件不管是什么类型系统都给它分配一个编号,称为索引节点号(Inode Index),这个索引节点用来标识这个文件,即这个索引节点就代表了这个文件。在Linux的同一文件系统中,多个文件名指向同一索引节点是存在的。一般这种连接就是硬连接。硬连 阅读全文
摘要:
1.绝对路径 绝对路径:绝对:真真地存在你电脑上的实际路径。比如你的window系统的C盘下有个ABC文件夹,ABC文件夹下有个file文件。那么绝对路径:C:\ABC\file 2.使用绝对路径的缺点 事实上,在编程时,很少会使用绝对路径,比如你在Window系统上写了个XX系统,需要使用“E:\ 阅读全文