致于数据科学家的小陈

2019年11月12日

摘要： why 回顾我的数据分析入门, 最开始时SPSS+EXCEL,正好 15年初是上大一下的时候, 因为统计学的还蛮好的, SPSS傻瓜式操作,上手挺方便,可渐渐地发现, 使用软件的最不好的地方是不够灵活, 不能为所欲为 , 编程语言才是最灵活的, 最还是用R, 命令式的, 也是感觉不太好是, 于是开始阅读全文

posted @ 2019-11-12 01:13 致于数据科学家的小陈阅读(520) 评论(0) 推荐(0) 编辑

2019年11月10日

Mysql Join-连接查询(中)

摘要： Mysql Join 连接查询(中) 认识就我平时的数据接触来看, 连接查询也没有很复杂,不够是非常需要耐心和逻辑的, 一点点将数据查出来, 拼接等. 没有什么技巧, 多练习就会了. 无非就是表之间根据共同key来连接, 查询时结合union, where, 子查询这些... , 真的不难的, 阅读全文

posted @ 2019-11-10 01:11 致于数据科学家的小陈阅读(470) 评论(0) 推荐(0) 编辑

2019年11月7日

Excel 逐条导入Mysql(数据更新)

摘要：其实,我的业务流程是, 先读取excel/csv -> pandas 数据清洗 -> 导入Mysql, 一般是做一个表append 或者是 if exist -> replace的操作逐行来添加数据其实更加灵活和方便. 这里用的驱动是pymysql的一个包, 其实本质就是一个客户端, 服务端已经和阅读全文

posted @ 2019-11-07 15:13 致于数据科学家的小陈阅读(1294) 评论(0) 推荐(0) 编辑

Excel 批量导入Mysql(创建表-追加数据)

摘要：之前弄数据库的时候, 测试excel导mysql, 中间用pandas 处理后再入库. 直接上代码, 此种有真意, 尽在不言中. 1 #!/usr/bin/env python 2 # coding: utf-8 3 # author: chenjie131@ke.com 4 5 ''' 6 应用场阅读全文

posted @ 2019-11-07 14:16 致于数据科学家的小陈阅读(4052) 评论(0) 推荐(0) 编辑

2019年11月5日

code_demo 用随机森林做缺失值预测

摘要：直接上代码在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢. 阅读全文

posted @ 2019-11-05 22:48 致于数据科学家的小陈阅读(834) 评论(0) 推荐(0) 编辑

pythonic-迭代器函数-itertools

摘要：认识 Python 的itertools模块提供了很多节省内存的高效迭代器 , 尤其解决了一些关于数据量太大而导致内存溢出(outofmemory) 的场景. 我们平时用的循环绝大多数是这样的. 不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个阅读全文

posted @ 2019-11-05 01:14 致于数据科学家的小陈阅读(241) 评论(0) 推荐(0) 编辑

2019年11月3日

Mysql Join-连接查询(上)

摘要：认识多表连接查询 ,我感觉应该是关系型数据库最能体现其价值和灵活性的地方吧. 我觉得数据库的作用, 归纳起来无非就是存储和查询 . 一言蔽之,数据库就是能灵活地存储和查询数据. 存储上, 也是以文件的方式存的(Linux观点, 一切皆文件), 文件就是存储数据的载体, 数据库文件跟其他的数据文件阅读全文

posted @ 2019-11-03 21:43 致于数据科学家的小陈阅读(1723) 评论(0) 推荐(0) 编辑

2019年10月26日

复盘一篇讲sklearn库的文章(下)

摘要： skleran 处理流程获取数据以用sklearn的内置数据集, 先导入datasets模块. 最经典的iris数据集作为例子. 手写数字数据集 (load_digits) 包含1797个0 9的手写数字数据, 每个数据由8 x 8大小的矩阵构成, 矩阵中值的范围是0 16, 代表颜色的深度. 阅读全文

posted @ 2019-10-26 21:20 致于数据科学家的小陈阅读(545) 评论(0) 推荐(0) 编辑

2019年10月25日

复盘一篇讲sklearn库学习文章(上)

摘要：认识 sklearn 官网地址: https://scikit learn.gor/stable/ 从2007年发布以来, scikit learn已成为重要的Python机器学习库, 简称sklearn, 支持包括分类, 回归, 降维和聚类等机器学习算法, 还包括了特征提取, 数据处理, 模阅读全文

posted @ 2019-10-25 23:40 致于数据科学家的小陈阅读(417) 评论(0) 推荐(0) 编辑

2019年10月20日

手动实现KNN算法

摘要：手动实现KNN算法计算距离取k个邻近排序距离(欧氏) 预习实现欧式距离 KNN 计算输入样本点,到每个样本的距离距离值向量将距离值向量降序取前k个值投票预习 Counter类(计数器) Counter (计数器): 用于追踪值出现的次数 Counter 类继承dict类, 能顺颂di 阅读全文

posted @ 2019-10-20 15:29 致于数据科学家的小陈阅读(794) 评论(0) 推荐(0) 编辑

2019年10月19日

复盘一篇浅谈KNN的文章

摘要：认识什么是KNN KNN 即 K nearest neighbors, 是一个hello world级别, 但被广泛使用的机器学习算法 , 中文叫 K近邻算法 , 是一种基本的分类和回归方法. KNN既可用来分类, 也可用于回归, 不过我还是觉得分类好一些哦 KNN的核心思想是, 如果一个样本, 阅读全文

posted @ 2019-10-19 01:12 致于数据科学家的小陈阅读(1071) 评论(0) 推荐(0) 编辑

2019年10月13日

不依赖Python第三方库实现梯度下降

摘要：认识梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模), 我感觉, 其实就是偏导数向量方向呗 , 沿着这个向量方向可以找到局部的极值 . Python from random impor 阅读全文

posted @ 2019-10-13 19:38 致于数据科学家的小陈阅读(329) 评论(0) 推荐(0) 编辑

2019年10月11日

Pandas 数据筛选,去重结合group by

摘要： Pandas 数据筛选,去重结合group by 需求今小伙伴有一个Excel表, 是部门里的小伙9月份打卡记录, 关键字段如下: 姓名 , 工号, 日期 , 打卡方式, 时间 , 详细位置, IP地址.... 脱敏数据: | 姓名 | 工号 | 日期 | 方式 | 时间 | ... | | : 阅读全文

posted @ 2019-10-11 21:31 致于数据科学家的小陈阅读(3769) 评论(0) 推荐(0) 编辑

2019年10月10日

Mysql 单表查询-排序-分页-group by初识

摘要： Mysql 单表查询排序分页 group by初识对于select 来说, 分组聚合(((group by; aggregation), 排序 ( order by ), 分页查询 ( limit ), 等这些操作, 都是结合 where 过滤(算术表达式, 逻辑表达式, 判空, 范围过滤, 阅读全文

posted @ 2019-10-10 01:41 致于数据科学家的小陈阅读(1489) 评论(0) 推荐(0) 编辑

2019年10月7日

Mysql 单表查询where初识

摘要： Mysql 单表查询where初识准备数据数据基本测试 where 条件过滤比较运算符 , 逻辑运算符, 范围判断, 空判断, 模糊查询逻辑运算符: and, or, not Null 判断 is null; is not null 范围查询 in; between...and in 用于离阅读全文

posted @ 2019-10-07 15:42 致于数据科学家的小陈阅读(409) 评论(0) 推荐(0) 编辑

宁鸣而死

学无止境, 气有浩然.

公告