2019 年 11月随笔档案 - 致于数据科学家的小陈

摘要：需求最近在看工作机会, 然后做了一道华为外包的笔试题. 我咋眼一看, 这种送分题, 能难住我? 构造一个字典, 统计词频 sorted() 按值排序即可求解用内置函数sorted() 正准备提交, 才发现, 不能用内置, 要自己写排序 , 这一下, 难度立马升级了短时间内要写出排序算法数据阅读全文

posted @ 2019-11-19 23:46 致于数据科学家的小陈阅读(210) 评论(0) 推荐(0) 编辑

PCA 从线性变换的角度理解

摘要：![](https://img2018.cnblogs.com/blog/1325660/201911/1325660-20191119230314019-587683946.jpg) 阅读全文

posted @ 2019-11-19 23:05 致于数据科学家的小陈阅读(292) 评论(0) 推荐(0) 编辑

LP线性规划初识

摘要：认识LP 线性规划(Linear Programming) 特指目标函数和约束条件皆为线性的最优化问题. 目标函数: 多个变量形成的函数约束条件: 由多个等式/不等式形成的约束条件线性规划: 在线性约束条件下,目标函数求极值的问题可行解: 满足线性约束条件下的解可行域: 所有可行解阅读全文

posted @ 2019-11-18 14:14 致于数据科学家的小陈阅读(834) 评论(0) 推荐(0) 编辑

Pandas 之描述性统计案例

摘要：认识 jupyter地址: pandas objects are equipped(配备的) with a set of common mathematical and statistical methods. Most of these fall into the categrory of red 阅读全文

posted @ 2019-11-17 23:25 致于数据科学家的小陈阅读(1658) 评论(0) 推荐(0) 编辑

Pandas 之 DataFrame 常用操作

摘要：This section will walk you(引导你) through the fundamental(基本的) mechanics(方法) of interacting(交互) with the data contained in a Series or DataFrame. (引导你去了阅读全文

posted @ 2019-11-16 23:27 致于数据科学家的小陈阅读(2586) 评论(0) 推荐(0) 编辑

Pandas 之 Series / DataFrame 初识

摘要：Pandas will be a major tool of interest throughout(贯穿) much of the rest of the book. It contains data structures and manipulation tools designed to ma 阅读全文

posted @ 2019-11-15 20:35 致于数据科学家的小陈阅读(489) 评论(0) 推荐(0) 编辑

NumPy 之案例(随机漫步)

摘要：The numpy.random module supplements(补充) the built in Python random with functions for efficiently generating whole arrays of sample values from many k 阅读全文

posted @ 2019-11-14 23:26 致于数据科学家的小陈阅读(1718) 评论(0) 推荐(0) 编辑

NumPy 之存储文件和线性代数

摘要：File Input and Output NumPy is able to save and load data to and from disk either in text or binary format. In this section I only discuss NumPy's bui 阅读全文

posted @ 2019-11-13 21:06 致于数据科学家的小陈阅读(351) 评论(0) 推荐(0) 编辑

NumPy 之面向数组编程

摘要：Using NumPy arrays enables you to express many kinds of data processing tasks as concise(简明的) array expressions(不用写循环就能用数组表达很多数据过程) that might otherwi 阅读全文

posted @ 2019-11-13 20:59 致于数据科学家的小陈阅读(369) 评论(0) 推荐(0) 编辑

NumPy 之 ndarray 多维数组初识

摘要：why 回顾我的数据分析入门, 最开始时SPSS+EXCEL,正好 15年初是上大一下的时候, 因为统计学的还蛮好的, SPSS傻瓜式操作,上手挺方便,可渐渐地发现, 使用软件的最不好的地方是不够灵活, 不能为所欲为 , 编程语言才是最灵活的, 最还是用R, 命令式的, 也是感觉不太好是, 于是开始阅读全文

posted @ 2019-11-12 01:13 致于数据科学家的小陈阅读(537) 评论(0) 推荐(0) 编辑

Mysql Join-连接查询(中)

摘要：Mysql Join 连接查询(中) 认识就我平时的数据接触来看, 连接查询也没有很复杂,不够是非常需要耐心和逻辑的, 一点点将数据查出来, 拼接等. 没有什么技巧, 多练习就会了. 无非就是表之间根据共同key来连接, 查询时结合union, where, 子查询这些... , 真的不难的, 阅读全文

posted @ 2019-11-10 01:11 致于数据科学家的小陈阅读(473) 评论(0) 推荐(0) 编辑

Excel 逐条导入Mysql(数据更新)

摘要：其实,我的业务流程是, 先读取excel/csv -> pandas 数据清洗 -> 导入Mysql, 一般是做一个表append 或者是 if exist -> replace的操作逐行来添加数据其实更加灵活和方便. 这里用的驱动是pymysql的一个包, 其实本质就是一个客户端, 服务端已经和阅读全文

posted @ 2019-11-07 15:13 致于数据科学家的小陈阅读(1307) 评论(0) 推荐(0) 编辑

Excel 批量导入Mysql(创建表-追加数据)

摘要：之前弄数据库的时候, 测试excel导mysql, 中间用pandas 处理后再入库. 直接上代码, 此种有真意, 尽在不言中. 1 #!/usr/bin/env python 2 # coding: utf-8 3 # author: chenjie131@ke.com 4 5 ''' 6 应用场阅读全文

posted @ 2019-11-07 14:16 致于数据科学家的小陈阅读(4057) 评论(0) 推荐(0) 编辑

code_demo 用随机森林做缺失值预测

摘要：直接上代码在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢. 阅读全文

posted @ 2019-11-05 22:48 致于数据科学家的小陈阅读(837) 评论(0) 推荐(0) 编辑

pythonic-迭代器函数-itertools

摘要：认识 Python 的itertools模块提供了很多节省内存的高效迭代器 , 尤其解决了一些关于数据量太大而导致内存溢出(outofmemory) 的场景. 我们平时用的循环绝大多数是这样的. 不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个阅读全文

posted @ 2019-11-05 01:14 致于数据科学家的小陈阅读(249) 评论(0) 推荐(0) 编辑

Mysql Join-连接查询(上)

摘要：认识多表连接查询 ,我感觉应该是关系型数据库最能体现其价值和灵活性的地方吧. 我觉得数据库的作用, 归纳起来无非就是存储和查询 . 一言蔽之,数据库就是能灵活地存储和查询数据. 存储上, 也是以文件的方式存的(Linux观点, 一切皆文件), 文件就是存储数据的载体, 数据库文件跟其他的数据文件阅读全文

posted @ 2019-11-03 21:43 致于数据科学家的小陈阅读(1726) 评论(0) 推荐(0) 编辑

宁鸣而死

学无止境, 气有浩然.

11 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论