12 2016 档案

摘要:在使用hive时候,需要关注hive任务所消耗的资源,否则可能会出现hive任务过于低效,或者把所查询的数据源拉胯的情况 1.查看当前hive所使用的引擎和配置 使用set语句可以查看当前hive的配置 set; 查看hive当前使用的engine set hive.execution.engine 阅读全文
posted @ 2016-12-31 11:21 tonglin0325 阅读(321) 评论(0) 推荐(0) 编辑
摘要:1.shell命令 shell是连接linux内核和linux命令的模块 命令名称 /bin/sh /bin/csh /bin/ksh chsh -s 输入新的shell,即修改shell 可以使用env命令查看当前的环境变量,可以查看当前使用的是什么shell命令 env | grep SHELL 阅读全文
posted @ 2016-12-29 17:23 tonglin0325 阅读(258) 评论(0) 推荐(0) 编辑
摘要:聚类是一种无监督的学习,它将相似的对象归到同一簇中。它有点像全自动分类。聚类方法几乎可以应用到所有对象,簇内的对象越相似,聚类的效果越好。 K-均值(K-means)聚类算法,之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。 簇识别(cluster id 阅读全文
posted @ 2016-12-26 11:14 tonglin0325 阅读(830) 评论(0) 推荐(0) 编辑
摘要:1.编译ranger项目 git clone https://github.com/apache/ranger.git cd ranger git checkout -b release-ranger-2.1.0 release-ranger-2.1.0 mvn clean package -Dsk 阅读全文
posted @ 2016-12-26 10:37 tonglin0325 阅读(1503) 评论(0) 推荐(0) 编辑
摘要:和回归树(在每个叶节点上使用各自的均值做预测)不同,模型树算法需要在每个叶节点上都构建出一个线性模型,这就是把叶节点设定为分段线性函数,这个所谓的分段线性(piecewise linear)是指模型由多个线性片段组成。 main.py 得到两段函数,以0.28为分界 分别为y=3.46877+1.1 阅读全文
posted @ 2016-12-25 21:05 tonglin0325 阅读(2101) 评论(0) 推荐(0) 编辑
摘要:线性回归创建模型需要拟合所有的样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂的时候,构建全局模型的想法就显得太难了,也略显笨拙。而且,实际生活中很多问题都是非线性的,不可能使用全局限性模型来拟合任何数据。 一种可行的方法是将数据集切分成很多份易建模的数据,然后再利用线性回 阅读全文
posted @ 2016-12-24 21:28 tonglin0325 阅读(9955) 评论(0) 推荐(0) 编辑
摘要:1.认证方式 系统的常用的认证方式如下:账号密码(Basic Auth),OAuth2.0,SAML,OIDC,LDAP等 1.OAuth2.0 是一种授权协议,旨在允许应用程序安全访问资源,而不是用来验证用户的身份。 它通常用于授权流程,以获得对受保护资源的访问权限。不兼容oauth1.0.允许第 阅读全文
posted @ 2016-12-24 19:37 tonglin0325 阅读(1430) 评论(0) 推荐(0) 编辑
摘要:1.数据可视化 1.单变量可视化 参考:从kaggle房价预测看探索性数据分析的一般规律 查看pandas某列的统计指标 # 描述性统计 print(train_data['SalePrice'].describe()) count 1460.000000 # 行数 mean 180921.1958 阅读全文
posted @ 2016-12-23 15:34 tonglin0325 阅读(7146) 评论(0) 推荐(1) 编辑
摘要:特征缩放(Feature Scaling)是一种将数据的不同变量或特征的方位进行标准化的方法。 在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲(数量级)的纯数值,便于不同单位或量级的指标能够进行比较和加权。 特征缩放的好处: 参考:标准化的好处及常见处理方法 1. 提升 阅读全文
posted @ 2016-12-23 14:58 tonglin0325 阅读(598) 评论(0) 推荐(0) 编辑
摘要:线性回归 优点:结果易于理解,计算上不复杂 缺点:对非线性的数据拟合不好 适用数据类型:数值型和标称型数据 回归的目的就预测数值型的目标值。最直接的办法就是依据输入写一个目标值的计算公式。这个计算公式就是所谓的回归方程(regression equation),其中的参数就是回归系数,求这些回归系数 阅读全文
posted @ 2016-12-21 22:43 tonglin0325 阅读(1538) 评论(0) 推荐(0) 编辑
摘要:在机器学习的分类问题中,我们都假设所有类别的分类代价是一样的。但是事实上,不同分类的代价是不一样的,比如我们通过一个用于检测患病的系统来检测马匹是否能继续存活,如果我们把能存活的马匹检测成患病,那么这匹马可能就会被执行安乐死;如果我们把不能存活的马匹检测成健康,那么就会继续喂养这匹马。一个代价是错杀 阅读全文
posted @ 2016-12-19 17:24 tonglin0325 阅读(1882) 评论(0) 推荐(0) 编辑
摘要:cd到需要git的目录 初始化git仓库 git init git remote add origin git@github.com:tonglin0325/XXX.git 新建分支 git checkout -b testing 添加并转到testing分支,不要直接在master分支上操作 gi 阅读全文
posted @ 2016-12-15 23:34 tonglin0325 阅读(210) 评论(0) 推荐(0) 编辑
摘要:ubuntu下非root用户下获得使用wireshark的权限 在非root用户下不能使用wireshark用来抓包,所以需要进行以下操作: sudo groupadd wireshark sudo chgrp wireshark /usr/bin/dumpcap sudo chmod 4755 / 阅读全文
posted @ 2016-12-14 17:17 tonglin0325 阅读(550) 评论(0) 推荐(0) 编辑
摘要:使用自签名的证书的网站默认不会被浏览器信任,使用浏览器带打开可能会弹出如下界面,需要在浏览器中点击继续前往或者添加例外 添加的例外可以在Firefox浏览器中如下界面中设置——隐私与安全——证书中进行查看 生成CA私钥 ca.key是证书颁发机构(Certificate Authority,CA)的 阅读全文
posted @ 2016-12-14 16:52 tonglin0325 阅读(733) 评论(0) 推荐(0) 编辑
摘要:1.安装 sudo apt-get install jenkins=2.249.2 修改端口 sudo vim /etc/default/jenkins HTTP_PORT=10001 参考 https://www.jenkins.io/doc/book/installing/linux/#debi 阅读全文
posted @ 2016-12-13 14:14 tonglin0325 编辑

点击右上角即可分享
微信分享提示