摘要:一篇了解大数据架构及Hadoop生态圈 阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节。 第一节 集群规划 大数据集群规划(以CDH集群为例),参考链接: https://www.cloudera.com/documentation/enterprise/la
阅读全文
摘要:Server包: Application启动类: CommandLinerRunner:此接口用于实现springboot启动时,加载默认配置,比如数据库初始化。 启动类的注解: @SpringBootApplication @EnableDiscoveryClient @EnableFeignCl
阅读全文
摘要:通过hue进行数据导入: 1,create table demo_id(`id` string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' 2, load data inpath '/user/demo.csv' into table demo_id #sql数据筛选 create table `table_na...
阅读全文
摘要:Java基础知识整理 MVC Model: 常用javaBean实现,通过各种类对数据库进行获取,并封装在对象中。 View: 常用JSP实现,通过Jsp页面来展示我们从数据库中获取的数据。 Controller: 常用Servlet实现,通过Servlet来获取经过javabean包装过的对象,然
阅读全文
摘要:#切换到root用户 sudo -i #显示当前目录下文件 ls #显示当前目录下文件及详细信息 ll ls -l #显示当前路径 pwd #查看本机所有java进程的pid jps #清屏 clear #显示主机名称 hostname #查看所有环境变量 env #设置或显示环境变量 export #显示当前PATH环境变量 echo $PATH #查看系统版本 lsb_relea...
阅读全文
摘要:#pg_sql之增删改查 #修改: inset into table_name (id, name, age, address ) select replace(old_id,old_id,new_id),#old_id字段的old_id数据,替换为new_id replace(name,name,substring(concat('【新名字】'),name),1,20)),#name字段替换...
阅读全文
摘要:附录: chromdriver.exe与chrome版本映射及下载链接 https://blog.csdn.net/mmayanshuo/article/details/78962398
阅读全文
摘要:r = request.get(url)r.status_code 获取响应状态码r.text 获取响应内容r.headers 获取响应头r.encoding 获取响应编码r.content 获取二进制响应内容r.json() 获取JSON响应内容
阅读全文
摘要:r 打开只读文件,该文件必须存在。 r+ 打开可读写的文件,该文件必须存在。 w 打开只写文件,若文件存在则文件长度清为0,即该文件内容会消失。若文件不存在则建立该文件。 w+ 打开可读写文件,若文件存在则文件长度清为零,即该文件内容会消失。若文件不存在则建立该文件。 a 以附加的方式打开只写文件。若文件不存在,则会建立该文件,如果文件存在,写入的数据会被加到文件尾,即文件原先的内容会被...
阅读全文
摘要:Pandas操作 python使用pandas读取csv import pandas as pd #数据筛选 usetTable = pd.read_csv(filename,header = 0) mask = True ^ userTable['ID'].isin(['',''])&..... show = userTable[mask] #例子,包含6105的行 userTable[u...
阅读全文
摘要:#创建文件 vim test.txt vi test.txt touch test.txt #在vim中要想退出,先按【esc】,再输入如下命令 [:wq]保存并退出 [:q]退出,未修改 [:q!]强制退出,修改过但不想保存 #显示行号 :set nu #不显示行号 :set nonu #非编辑状态 hjkl 上下左右 ctrl+f 向上翻页 ctrl+b 向下翻页 /word 在光标...
阅读全文
摘要:基于LR的回归分类实例 概念 前提理解: 机器学习的三个步骤:模型,损失函数(即样本误差),优化求解(通过损失函数,使得模型的样本误差最小或小于阈值,求出满足条件的参数,优化求解包括:最小二乘法,梯度下降)。 链接1:简析python3深浅复制与赋值 https://cloud.tencent.co
阅读全文
摘要:朴素贝叶斯 概念 对朴素贝叶斯的概念存在疑惑的,可以依此理解条件概率,全概率公式和贝叶斯公式。 附链接帮助理解: 链接1https://blog.csdn.net/Hearthougan/article/details/75174210 链接2https://www.cnblogs.com/hell
阅读全文
摘要:随机森林 概论 前提 Random Forest:可以理解为Bagging with CARTS. Bagging是bootstrap aggregating(引导聚集算法)的缩写。 CART(classification and regression Tree)分类和回归树,二分类树。 这里涉及到
阅读全文
摘要:分类算法 二分类 线性支持向量机,Logistic回归,决策树,随机森林,梯度上升树,朴素贝叶斯 多类分类 Logistic回归,决策树,随机森林,朴素贝叶斯 回归 线性最小二乘法,Lasso,岭回归,决策树,随机森林,梯度上升树,保序回归 Random Forest 随机森林(决策树+bagging(bootstrap Aggregating)) 随机森林:测量每个特征对预测的相对重要性,进...
阅读全文
摘要:特征工程 特征工程是利用数据领域的相关知识来创建能使机器学习达到最佳效果的特征的过程。从数学角度思考,特征工程就是人工地去设计输入变量X。 通常把特征工程看做是一个问题,事实上,在特征工程下面,还有许多子问题,主要包括,特征选择(Feature Selection)、特征提取(Feature Ext
阅读全文
摘要:RFM模型 Recency(距离最近的一次交易),Frequency(交易频率),Monetary(交易金额) (1)是RFM模型? 在客户关系管理的分析模型中,RFM模型是被广泛提到的。RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户近期的交易行为、交易的总体频率以及交易金额三项指标来描述该客户的价值状况。依据这三项指标划分8类客户价值。 重要价值客户,重要换回客户,重...
阅读全文
摘要:强化学习 强化学习能解决的问题:序贯决策问题 序贯决策问题:连续不断的作出决策,才能实现最终目标的问题。 强化学习如何解决问题? 类比,强化学习和监督学习的异同点: 共同点:两者都需要大量的数据进行训练 不同点:两者所需的数据类型不同。监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互
阅读全文
摘要:1 数据结构 链表:单链表,循环链表,双向链表 LikedList<> 特点:适合增删,不适合查找 数组 特点:适合查找,不适合增删 栈 深度优先搜索算法,会选择最新的数据最为候补顶点 队列 广度优先搜索算法,会从搜索候补集中选择最早的作为下一个顶点 哈希表 链地址法:若发生冲突,利用链表在以后数据
阅读全文