摘要: 先看profile有没有配置 配置环境变量 Terminal initialization failed; falling back to unsupported错误 hadoop目录下存在老版本jline 把hive1下的jlinejar包拷贝到hadoop下 然后 删除掉老jar包 阅读全文
posted @ 2019-07-19 16:39 Languid 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 根据outid列和course_no列对数据进行group_by然后count 想要获得count=3的分组中 score的最小值 并根据score最小值所在的行去修改另外一列 思路是先筛选出count>2的outid和course_no 然后和原先的dataframe取交集 对交集再进行group 阅读全文
posted @ 2019-07-16 17:28 Languid 阅读(1593) 评论(0) 推荐(0) 编辑
摘要: NumPy之于数值计算特别重要的原因之一,是因为它可以高效处理大数组的数据。这是因为: NumPy是在一个连续的内存块中存储数据,独立于其他Python内置对象。NumPy的C语言编写的算法库可以操作内存,而不必进行类型检查或其它前期工作。比起Python的内置序列,NumPy数组使用的内存更少。 阅读全文
posted @ 2019-07-15 09:57 Languid 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 一、条件概率 二、贝叶斯公式 二-1 贝叶斯公式作用 三 朴素贝叶斯分类器 其分类原理是通过过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 假设独立同分布,即“朴素”。 阅读全文
posted @ 2019-07-05 17:11 Languid 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 一、etl在bi中的作用 BI流程:由数据后台例如数据库 到数据缓冲区取出来 数据集市 给应用服务器提供数据 发布给用户 图中左边:为数据后台、业务系统、可能是数据库,从中抽出数据 中间:是etl的流程,抽到图中左下是数据缓冲区,左上是根据维度建好的多个数据集市。etl:描述将数据从来源端经过萃取( 阅读全文
posted @ 2019-06-14 16:52 Languid 阅读(1572) 评论(0) 推荐(0) 编辑
摘要: 一、sql汇总 1.对xxxx@zzz.com 这种邮箱地址截取后缀 切割字符串,确定字符串长度,减去前半部分长度。 2. :B表 :A表 :C表 用一条sql得到 c表的结果 3. user name1 a1 a1 b2 c2 c2 d想要分组以后得到user name count1 a 22 c 阅读全文
posted @ 2019-06-06 16:39 Languid 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 1.清洗数据中的全空行 2.清洗user列中的空值的行 3.统计上行流量列以及下行流量列的当天每人每终端服务app的总量。 4.统计每人每天终端服务app的次数。 1.用正则表达以及loc清洗tm_type列的数据,做以下更改: 系统移动终端=mobile() pc=pc() 多终端=多终端() 未 阅读全文
posted @ 2019-06-01 18:43 Languid 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 一、Pandas概要介绍 pandas是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。可以用于对CSV和文本文件、Microsoft Excel、SQL数据库数据的读写。 能够帮助数据清洗,数据分析和数据建模。 二、主要的两种数据结构 序列(Seri 阅读全文
posted @ 2019-05-25 17:56 Languid 阅读(2757) 评论(0) 推荐(0) 编辑
摘要: 一、什么是普罗米修斯? 1.Prometheus是一个最初在SoundCloud上构建的开源系统监视和警报工具包 。自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有一个非常活跃的开发人员和用户社区。它现在是一个独立的开源项目,可以独立于任何公司进行维护。为了强调这一点,并 阅读全文
posted @ 2019-05-20 10:46 Languid 阅读(372) 评论(0) 推荐(0) 编辑
摘要: 对一个静态的网页进行爬取。 要获取的内容分别为 paths 标签下的 1./quota/开头的路径 2. get 这样的httpmode 3 description对应的描述 4 summary 5 tags 里存放着的服务名 6 服务名所对应的副描述(不在paths标签下) 7总的title(只有 阅读全文
posted @ 2019-04-29 14:35 Languid 阅读(1196) 评论(0) 推荐(0) 编辑