摘要: why 回顾我的数据分析入门, 最开始时SPSS+EXCEL,正好 15年初是上大一下的时候, 因为统计学的还蛮好的, SPSS傻瓜式操作,上手挺方便,可渐渐地发现, 使用软件的最不好的地方是不够灵活, 不能为所欲为 , 编程语言才是最灵活的, 最还是用R, 命令式的, 也是感觉不太好是, 于是开始 阅读全文
posted @ 2019-11-12 01:13 致于数据科学家的小陈 阅读(520) 评论(0) 推荐(0) 编辑
摘要: Mysql Join 连接查询(中) 认识 就我平时的数据接触来看, 连接查询也没有很复杂,不够是非常需要耐心和逻辑的, 一点点将数据查出来, 拼接等. 没有什么技巧, 多练习就会了. 无非就是 表之间根据共同key来连接, 查询时结合union, where, 子查询这些... , 真的不难的, 阅读全文
posted @ 2019-11-10 01:11 致于数据科学家的小陈 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 其实,我的业务流程是, 先读取excel/csv -> pandas 数据清洗 -> 导入Mysql, 一般是做一个表append 或者是 if exist -> replace的操作 逐行来添加数据其实更加灵活和方便. 这里用的驱动是pymysql的一个包, 其实本质就是一个客户端, 服务端已经和 阅读全文
posted @ 2019-11-07 15:13 致于数据科学家的小陈 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: 之前弄数据库的时候, 测试excel导mysql, 中间用pandas 处理后再入库. 直接上代码, 此种有真意, 尽在不言中. 1 #!/usr/bin/env python 2 # coding: utf-8 3 # author: chenjie131@ke.com 4 5 ''' 6 应用场 阅读全文
posted @ 2019-11-07 14:16 致于数据科学家的小陈 阅读(4052) 评论(0) 推荐(0) 编辑
摘要: 直接上代码 在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢. 阅读全文
posted @ 2019-11-05 22:48 致于数据科学家的小陈 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 认识 Python 的itertools模块提供了很多 节省内存的高效迭代器 , 尤其解决了一些关于数据量太大而导致 内存溢出(outofmemory) 的场景. 我们平时用的循环绝大多数是这样的. 不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个 阅读全文
posted @ 2019-11-05 01:14 致于数据科学家的小陈 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 认识 多表连接查询 ,我感觉应该是关系型数据库最能体现其价值和灵活性的地方吧. 我觉得数据库的作用, 归纳起来无非就是 存储和查询 . 一言蔽之,数据库就是能灵活地存储和查询数据. 存储上, 也是以文件的方式存的(Linux观点, 一切皆文件), 文件就是存储数据的载体, 数据库文件跟其他的数据文件 阅读全文
posted @ 2019-11-03 21:43 致于数据科学家的小陈 阅读(1723) 评论(0) 推荐(0) 编辑
摘要: skleran 处理流程 获取数据 以用sklearn的内置数据集, 先导入datasets模块. 最经典的iris数据集作为例子. 手写数字数据集 (load_digits) 包含1797个0 9的手写数字数据, 每个数据由8 x 8大小的矩阵构成, 矩阵中值的范围是0 16, 代表颜色的深度. 阅读全文
posted @ 2019-10-26 21:20 致于数据科学家的小陈 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 认识 sklearn 官网地址: https://scikit learn.gor/stable/ 从2007年发布以来, scikit learn已成为重要的Python机器学习库, 简称sklearn, 支持包括 分类, 回归, 降维和聚类 等机器学习算法, 还包括了 特征提取, 数据处理, 模 阅读全文
posted @ 2019-10-25 23:40 致于数据科学家的小陈 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 手动实现KNN算法 计算距离 取k个邻近排序 距离(欧氏) 预习 实现欧式距离 KNN 计算输入样本点,到每个样本的距离 距离值向量 将距离值向量降序取前k个值 投票 预习 Counter类(计数器) Counter (计数器): 用于追踪值出现的次数 Counter 类继承dict类, 能顺颂di 阅读全文
posted @ 2019-10-20 15:29 致于数据科学家的小陈 阅读(794) 评论(0) 推荐(0) 编辑
摘要: 认识 什么是KNN KNN 即 K nearest neighbors, 是一个hello world级别, 但被广泛使用的 机器学习算法 , 中文叫 K近邻算法 , 是一种基本的分类和回归方法. KNN既可用来分类, 也可用于回归, 不过我还是觉得分类好一些哦 KNN的核心思想是, 如果一个样本, 阅读全文
posted @ 2019-10-19 01:12 致于数据科学家的小陈 阅读(1071) 评论(0) 推荐(0) 编辑
摘要: 认识 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模), 我感觉, 其实就是 偏导数向量方向呗 , 沿着这个 向量方向可以找到局部的极值 . Python from random impor 阅读全文
posted @ 2019-10-13 19:38 致于数据科学家的小陈 阅读(329) 评论(0) 推荐(0) 编辑
摘要: Pandas 数据筛选,去重结合group by 需求 今小伙伴有一个Excel表, 是部门里的小伙9月份打卡记录, 关键字段如下: 姓名 , 工号, 日期 , 打卡方式, 时间 , 详细位置, IP地址.... 脱敏数据: | 姓名 | 工号 | 日期 | 方式 | 时间 | ... | | : 阅读全文
posted @ 2019-10-11 21:31 致于数据科学家的小陈 阅读(3769) 评论(0) 推荐(0) 编辑
摘要: Mysql 单表查询 排序 分页 group by初识 对于select 来说, 分组聚合(((group by; aggregation), 排序 ( order by ), 分页查询 ( limit ), 等这些操作, 都是结合 where 过滤(算术表达式, 逻辑表达式, 判空, 范围过滤, 阅读全文
posted @ 2019-10-10 01:41 致于数据科学家的小陈 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: Mysql 单表查询where初识 准备数据 数据基本测试 where 条件过滤 比较运算符 , 逻辑运算符, 范围判断, 空判断, 模糊查询 逻辑运算符: and, or, not Null 判断 is null; is not null 范围查询 in; between...and in 用于离 阅读全文
posted @ 2019-10-07 15:42 致于数据科学家的小陈 阅读(409) 评论(0) 推荐(0) 编辑