摘要:
matplotlib是强大的python 绘图包。pandas 是强大的python分析工具包。numpy是强大的python统计包。 都超级好用,而且最近开始动手实践机器学习算法了。特此备注一下安装过程: ----------------------------------------- 1. m 阅读全文
摘要:
matplotlib是强大的python 绘图包。pandas 是强大的python分析工具包。numpy是强大的python统计包。 都超级好用,而且最近开始动手实践机器学习算法了。特此备注一下安装过程: ----------------------------------------- 1. m 阅读全文
摘要:
1. 下面的语句要放在代码开头,指定文件编码, 可以识别 脚本中的所有字符和中文。 2. codecd 编码转换 如果想要读取文本中的中文,需要借助于codecs的一套open方法,而不是内置的open。 上面是为了显示内部编码的转换,简便用法如下: 3. codecs 编码小结: gb2312/g 阅读全文
摘要:
1. asarray 函数 可以将输入数据转化为矩阵格式。 输入数据可以是(列表,元组,列表的列表,元组的元组,元组的列表等这些数组形式)。 语法: asarray(a, dtype=None, order=None) 第一参 a : 输入数据,一般都是可以转化为数组的格式,参考上面例子。 第二参 阅读全文
摘要:
工作以来一直都在断断续续使用正则表达式。可惜每次用时都百度,这次终于用心总结了一下: 1. 很好用的在线正则表达式检查: http://tool.oschina.net/regex/?optionGlobl=global# 2. 通用字符 & 字符 3. 匹配下面的一些 特殊字符 时,需要转义(加上 阅读全文
摘要:
1 分析函数:用于等级、百分点、n分片等 Ntile 是Hive很强大的一个分析函数。 可以看成是:它把有序的数据集合 平均分配 到 指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。 语法是: ntile (num) ov 阅读全文
摘要:
1. 本地环境配置 必须包含的一些包。 http://blog.csdn.net/azhao_dn/article/details/6981115 2. 去重UDF实例 http://blog.csdn.net/lifuxiangcaohui/article/details/41548667 htt 阅读全文
摘要:
1. 多行字符串可以通过三个连续的单引号 (”’) 或是双引号 (“”") 来进行标示 2. 矩阵初始化 或者用循环的方式: 3. int, string,list互相转化 int(str1) 可以把string转化为int str(int1) 可以把int转化为string ''.join(lis 阅读全文
摘要:
分区 & 分桶 都是把数据划分成块。分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。 分区之后,分区列都成了文件目录,从而查询时定位到文件目录,子数据集而提高查询效率。 桶 clustered by (...) into (...) buckets 声明分桶 阅读全文
摘要:
梯度下降(GD,Gradient descend)是最小化风险函数、损失函数的一种常用方法 随机梯度下降和批量梯度下降是两种迭代求解思路。 阅读全文
摘要:
学习自 http://blog.csdn.net/xqy1522/article/details/6699740 1. Map Join 的使用场景: 关联操作中有一张表非常小 不等值的链接操作 2. 语法: 使用 hint 的方式指定join时使用mapjoin。 用时才发现了个细节: /*+ma 阅读全文
|