摘要:
闭包:延伸了作用域的函数。 需求: 假如有个名为avg的函数,它的作用是计算不断增加的系列值的均值; 使用类实现: class Averager(): def __init__(self): self.series=[] def __call__(self,new_value): self.seri 阅读全文
摘要:
关联分析: 构造一个关联系数矩阵,两个属性的值介于-1到1之间。 大于0,两者为正关联,<0,两者为负关联。 0 无关联,接近1或-1是比较强的关联。 关联规则: 寻找数据集内的属性之间存在的频繁关联,前提 >结论 举例子: 确定哪些产品最常被一起购买。 有这么一波人买早点,买糕点的有4个,买牛奶的 阅读全文
摘要:
CREATE TABLE employees( name STRING, salary FLOAT, subordinatates ARRAY<STRING> deductions MAP<STRING,FLOAT> address STRUCT<street:STRING,city:STRING, 阅读全文
摘要:
HIVE CLI交互式模式: 1.退出hive: exit 2.在hive中运行本地shell命令,不需要退出hive执行操作: !echo 'hello hive' 3.在hive上直接运行dfs命令 dfs -ls /; 查看根目录 dfs -du -h /; 查看根目录空间大小 HIVE CL 阅读全文
摘要:
Hadoop:分布式计算平台 HDFS:分布式文件系统 一个hdfs集群包含一个节点,称为NameNode,管理文件系统名称空间,存储metadata(每一个文件包含多少个block,每个block在哪个主机?),规范客户端对文件访问。 DataNode,将数据以块(block)存储在文件中 map 阅读全文
摘要:
linux之快捷键: 1.命令或目录补齐 Tab 2.遍历历史记录 History:命令端显示最近使用过的命令 上移:ctrl+p 下移:ctrl+n 3.光标移动 移动到首部:ctrl+a 移动到尾部:ctrl+e linux之文档编辑: vi和vim的三种模式 命令模式: 移动光标插入模式:编辑 阅读全文
摘要:
字典构造: a=dict(one=1,two=2,three=3) b={'one':1,'two':2.'three'=3} c=dict(zip(['one','two','three'],[1,2,3])) 字典推导: dic=[(86,'China'),(91,'India'),(1,'Un 阅读全文
摘要:
高阶函数: 接受函数为参数,或者把函数作为结果返回的函数是高阶函数。 例子: python的sorted函数 需求:根据单词长度排序。 fruits=['strawberry','fig','apple','cherry','raspberry'] sorted(fruits,key=len) 需求 阅读全文