上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页

2020年4月9日

摘要: 在python中,用于数组拼接的主要来自numpy包,当然pandas包也可以完成。 而,numpy中可以使用append和concatenate函数: 1. 建立数组 # pandas有专门的连接方法 import numpy as np # np.size(a, 0) 行数 # np.size( 阅读全文
posted @ 2020-04-09 21:00 落日峡谷 阅读(3216) 评论(0) 推荐(0) 编辑

2020年4月7日

摘要: hive中可用于分组排序的函数主要有:row_number,rank,dense_rank,它们分别有不同的特点,关键词主要用到:partition by和order by等。 【1】row_number:排序时给每一行分配唯一的顺序,相同行顺序也不同 select age, grade, row_ 阅读全文
posted @ 2020-04-07 21:17 落日峡谷 阅读(6013) 评论(0) 推荐(0) 编辑

2020年4月6日

摘要: ROC曲线:全称 Receiver Operating Characteristic曲线,即受试者工作特性曲线,在机器学习领域常用于判断分类器的好坏。 要了解ROC曲线,首先要了解该曲线的横纵坐标 —— FPR(1-特异度)和TPR(召回率或者灵敏度)。 1. 基本概念 —— 混淆矩阵 绘制混淆矩阵 阅读全文
posted @ 2020-04-06 19:50 落日峡谷 阅读(1252) 评论(0) 推荐(0) 编辑
摘要: 1. 稀疏矩阵的建立:coo_matrix() from scipy.sparse import coo_matrix # 建立稀疏矩阵 data = [1,2,3,4] row = [3,6,8,2] col = [0,7,4,9] c = coo_matrix((data,(row,col)), 阅读全文
posted @ 2020-04-06 16:49 落日峡谷 阅读(2516) 评论(0) 推荐(0) 编辑
摘要: mysql中的条件语句主要有if 和case when。 首先,一个初始表格:felix_test 1. IF(expr1,expr2,expr3):如果第一个条件为True,则返回第二个参数,否则返回第三个 select if(author='Felix', 'yes', 'no') as AU 阅读全文
posted @ 2020-04-06 15:53 落日峡谷 阅读(9187) 评论(1) 推荐(0) 编辑
摘要: 类似于mysql,hive中也有处理日期和时间的方法。 1. 日期转时间戳:unix_timestamp select unix_timestamp('2020/03/25 15:54:24', 'yyyy/MM/dd HH:mm:ss') from db_name.tb_name # 如果不写第二 阅读全文
posted @ 2020-04-06 15:13 落日峡谷 阅读(5379) 评论(0) 推荐(0) 编辑

2020年3月31日

摘要: pearson相关系数:用于判断数据是否线性相关的方法。 注意:不线性相关并不代表不相关,因为可能是非线性相关。 Python计算pearson相关系数: 1. 使用numpy计算(corrcoef),以下是先标准化再求相关系数 import numpy as np import pandas as 阅读全文
posted @ 2020-03-31 21:04 落日峡谷 阅读(32162) 评论(0) 推荐(1) 编辑
摘要: 在进行数据分析或者机器学习时,通常需要对数据进行预处理,其中主要的步骤就是数据标准化/归一化。 常用的数据标准化和归一化方法主要有: 1. 最大最小标准化 y=(x-min(x))/(max(x)-min(x)),x为一序列,即x={x1,x2,x3......},max(x)为最大值,min(x) 阅读全文
posted @ 2020-03-31 20:17 落日峡谷 阅读(6878) 评论(0) 推荐(0) 编辑

2020年3月28日

摘要: 最近使用Pyspark的时候,遇到一些新的问题,希望记录下来,解决的我会补充。 1. WARN DomainSocketFactory: The short-circuit local reads feature cannot be used 2. pyspark TypeError: 'Pipel 阅读全文
posted @ 2020-03-28 19:09 落日峡谷 阅读(1255) 评论(0) 推荐(0) 编辑
摘要: 1. Python的figure参数主要有: def figure(num=None, # autoincrement if None, else integer from 1-N figsize=None, # defaults to rc figure.figsize dpi=None, # d 阅读全文
posted @ 2020-03-28 18:05 落日峡谷 阅读(3445) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页

导航