该文被密码保护。 阅读全文
posted @ 2019-06-01 10:27 Shilo 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 四、数据处理 (1)缺失值 查看缺失情况: 删除缺失值: 利用sklearn替换缺失值。当缺失值为数值型数据时,可用利用均值来替换 利用pandas替换缺失值(常用) 一个实例(https://blog.csdn.net/weixin_41576911/article/details/8374441 阅读全文
posted @ 2019-05-28 14:48 Shilo 阅读(6431) 评论(0) 推荐(1) 编辑
摘要: 这个蛮常用的,所以把网上的贴了下来: python脚本的执行(cmd):python d:/python/orclImport.py 另外,作者还写了用cmd代入dmp到orcl: imp [username]/[password]@[ip]/[sid] file="[dmp address]" f 阅读全文
posted @ 2019-05-27 10:59 Shilo 阅读(1136) 评论(0) 推荐(0) 编辑
摘要: python作为当前主流的语言之一,他的功能是非常强大的。不论是在游戏行业还是数据分析行业还是软件开发啥的好像都可以用python,但作为一个数据分析师,并不需要用到他的全部功能。 只是想要达到“能够用python完成数据分析工作”的效果,所以整理了这个随笔。 一、数据导入 数据的导入是进行数据分析 阅读全文
posted @ 2019-05-27 10:36 Shilo 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: a[is.na(a[,16]),16] <- 0 #16列为空的行,将16列填充为0 阅读全文
posted @ 2019-04-24 17:37 Shilo 阅读(2242) 评论(0) 推荐(0) 编辑
摘要: test[!duplicated(test),] 阅读全文
posted @ 2019-04-23 11:38 Shilo 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 重命名全部的列是 name(data) <- c("NO","name") 但是数据集有点长的时候用name,没办法对单个列 查了一下 colnames(data)[2] <- 'newname' 可行 阅读全文
posted @ 2019-03-20 11:08 Shilo 阅读(9499) 评论(0) 推荐(1) 编辑
摘要: 整理一下目前在工作和学习中用到的分类模型效果,也就是俗称的“准确率”的各种表达形式。避免以后忘记,查一下又要给某论坛交记忆税。 (一)准确率accuracy 准确率=分类正确的样本数目/总样本量 大众通常意义上的准确率,一般客户会默认我们所说的准确率是这个定义。 在实际工作中该指标基本没有实际意义( 阅读全文
posted @ 2019-03-11 17:13 Shilo 阅读(1771) 评论(0) 推荐(0) 编辑
摘要: python的数据类型和R差不多,但是需要注意的是字符访问方式与R不一样,另外,python中的“真”和“假”是True False(首字母大写)。 1、字符串 字符串和R的定义差不多比如: 就是字符串。 而且python的字符串既可以用单引号也可以用双引号来表示,当然它们必须是成对的。 BUT!访 阅读全文
posted @ 2019-03-07 20:28 Shilo 阅读(262) 评论(0) 推荐(0) 编辑
摘要: Python实现机器学习依赖于两个类库——SciPy和scikit-learn 一)SciPy SciPy是数学运算的基本类库,在机器学习的过程中,主要运用NumPy、Matplotlib和Pandas三个类库。具体来说,NumPy是用来准备数据的工具,Matplotlib则用来创建图表和实现可视化 阅读全文
posted @ 2019-03-06 21:56 Shilo 阅读(172) 评论(0) 推荐(0) 编辑