摘要:
https://blog.csdn.net/wx1528159409/article/details/87948866 阅读全文
摘要:
一、为什么学数据仓库 数据不兼容,很难被整合 战略决策需要数据的分析 推荐系统 二、数仓定义 是一个面向主题的、集成的、非易失的、随时间变化的数据集合 1. 主题 >> 如“销售分析”主题 数据源可以表,可以视频、图片、日志 提取主题 >> 包含主题所有信息,抛弃无关数据 2. 集成 3. 非易失 阅读全文
摘要:
文档格式转换为Unix格式 阅读全文
摘要:
一、说明 sqoop查看是否安装成功:https://www.cnblogs.com/xibuhaohao/p/11775973.html#_label3_0 如何用shell操作mysql: 使用mysql -e可以增删改查,具体见:https://blog.csdn.net/feeltouch/ 阅读全文
摘要:
一、导包 Settings => project interpreter => impyla 0.17a1 pure-sasl 0.6.2 thrift thrift-sasl (manage repositories:https://pypi.douban.com/simple/) (option 阅读全文
摘要:
一、理论 https://www.cnblogs.com/futurehau/p/6105011.html 二、代码 1)一元一次线性方程 y=kx+b 注意x和y一定是[[1],[2],[3],[4],...] #-*-coding:gb2312-*- import numpy as np imp 阅读全文
摘要:
一、随机森林是什么? 随机森林是一种多功能的机器学习算法,能够执行①回归和②分类的任务,同时也是一种③数据降维手段,用于处理缺失值、异常值等担任了集成学习中的重要方法,可以将④几个低效模型整合为一个高效模型 在随机森林中,我们将生成很多的决策树,并不像在CART模型中只生成唯一的树1)分类 => 当 阅读全文
摘要:
一、熵、条件熵、信息增益 数学概念:https://zhuanlan.zhihu.com/p/41134986 二、决策树分类 我们在构造决策树的时候,会基于纯度来构建。而经典的 “不纯度”的指标有三种,分别是信息增益(ID3 算法)、信息增益率(C4.5 算法)以及基尼指数(Cart 算法)。信息 阅读全文
摘要:
1.spark -submit 提交的shell脚本:https://blog.csdn.net/u011098327/article/details/54946565 参数说明: https://www.cnblogs.com/weiweifeng/p/8073553.html 在a.sh中: s 阅读全文
摘要:
# find all :找到 RE 匹配的所有子串,并把它们作为一个列表返回 tt = re.findall('^\d{13}',str(time.time()).replace('.',''))[0] # 很长的计算.... v = float(re.findall('^\d{13}',str(t 阅读全文