11 2019 档案

摘要:线性回归的推导和求解. 分别从 矩阵代数, 微积分, 概率论, Pyhton 实现求解等, 巩固我的6年经验了. 阅读全文
posted @ 2019-11-30 19:01 致于数据科学家的小陈 阅读(708) 评论(0) 推荐(0) 编辑
摘要:交叉验证 阅读全文
posted @ 2019-11-29 19:08 致于数据科学家的小陈 阅读(319) 评论(0) 推荐(0) 编辑
摘要:SVM 实现多分类思路 阅读全文
posted @ 2019-11-29 15:01 致于数据科学家的小陈 阅读(1200) 评论(0) 推荐(0) 编辑
摘要:号称全站最直观解释-smv核函数-是干啥 阅读全文
posted @ 2019-11-28 20:58 致于数据科学家的小陈 阅读(431) 评论(0) 推荐(0) 编辑
摘要:求解SVM 的 SMO算法 阅读全文
posted @ 2019-11-28 18:47 致于数据科学家的小陈 阅读(419) 评论(0) 推荐(0) 编辑
摘要:核函数(Kernel) 的 SVM, 解决线性不可分问题. 阅读全文
posted @ 2019-11-28 11:48 致于数据科学家的小陈 阅读(1500) 评论(0) 推荐(0) 编辑
摘要:字符串反转 阅读全文
posted @ 2019-11-27 23:17 致于数据科学家的小陈 阅读(121) 评论(0) 推荐(0) 编辑
摘要:索引重塑reshape 阅读全文
posted @ 2019-11-27 20:18 致于数据科学家的小陈 阅读(422) 评论(0) 推荐(0) 编辑
摘要:带松弛的svm推导 阅读全文
posted @ 2019-11-26 20:34 致于数据科学家的小陈 阅读(776) 评论(0) 推荐(0) 编辑
摘要:Max Margin svm 即Suport Vector Machine, 中文意为: 支持向量机 . 对于 二分类 问题, 在样本空间中(即便是多维向量, 在空间中可表示为一个点). svm的核心思想就是 假设在这2波点的边缘处, 能找到一条直线 wTx+b=0, 能够把这2波点分开, 阅读全文
posted @ 2019-11-26 11:24 致于数据科学家的小陈 阅读(246) 评论(0) 推荐(0) 编辑
摘要:数据合并, 拼接 阅读全文
posted @ 2019-11-25 23:59 致于数据科学家的小陈 阅读(500) 评论(0) 推荐(0) 编辑
摘要:对偶(Duality)问题 KKT 条件 阅读全文
posted @ 2019-11-25 13:18 致于数据科学家的小陈 阅读(540) 评论(0) 推荐(0) 编辑
摘要:多层索引 阅读全文
posted @ 2019-11-25 00:27 致于数据科学家的小陈 阅读(1056) 评论(0) 推荐(0) 编辑
摘要:对偶问题求解 阅读全文
posted @ 2019-11-24 23:53 致于数据科学家的小陈 阅读(874) 评论(0) 推荐(0) 编辑
摘要:pandas 中, 关于字符串处理的常用api总结 阅读全文
posted @ 2019-11-23 23:30 致于数据科学家的小陈 阅读(2106) 评论(0) 推荐(0) 编辑
摘要:凸优化的入门 阅读全文
posted @ 2019-11-23 00:00 致于数据科学家的小陈 阅读(585) 评论(0) 推荐(0) 编辑
摘要:数据映射, 离散化, 异常值, 重采样, one-hot coding.... 阅读全文
posted @ 2019-11-21 22:13 致于数据科学家的小陈 阅读(1411) 评论(0) 推荐(0) 编辑
摘要:数据清洗-缺失值处理(drop, fill) 阅读全文
posted @ 2019-11-20 22:20 致于数据科学家的小陈 阅读(558) 评论(0) 推荐(0) 编辑
摘要:初步认识求解LP用单纯形算法 阅读全文
posted @ 2019-11-20 21:48 致于数据科学家的小陈 阅读(1155) 评论(0) 推荐(0) 编辑
摘要:需求 最近在看工作机会, 然后做了一道华为外包的笔试题. 我咋眼一看, 这种送分题, 能难住我? 构造一个字典, 统计词频 sorted() 按值排序即可 求解 用内置函数sorted() 正准备提交, 才发现, 不能用内置, 要自己写排序 , 这一下, 难度立马升级了 短时间内要写出排序算法 数据 阅读全文
posted @ 2019-11-19 23:46 致于数据科学家的小陈 阅读(210) 评论(0) 推荐(0) 编辑
摘要:![](https://img2018.cnblogs.com/blog/1325660/201911/1325660-20191119230314019-587683946.jpg) 阅读全文
posted @ 2019-11-19 23:05 致于数据科学家的小陈 阅读(292) 评论(0) 推荐(0) 编辑
摘要:认识LP 线性规划(Linear Programming) 特指目标函数和约束条件皆为线性的最优化问题. 目标函数: 多个 变量 形成的函数 约束条件: 由多个 等式/不等式 形成的约束条件 线性规划: 在 线性约束条件下,目标函数求极值的问题 可行解: 满足线性约束条件下的解 可行域: 所有可行解 阅读全文
posted @ 2019-11-18 14:14 致于数据科学家的小陈 阅读(834) 评论(0) 推荐(0) 编辑
摘要:认识 jupyter地址: pandas objects are equipped(配备的) with a set of common mathematical and statistical methods. Most of these fall into the categrory of red 阅读全文
posted @ 2019-11-17 23:25 致于数据科学家的小陈 阅读(1658) 评论(0) 推荐(0) 编辑
摘要:This section will walk you(引导你) through the fundamental(基本的) mechanics(方法) of interacting(交互) with the data contained in a Series or DataFrame. (引导你去了 阅读全文
posted @ 2019-11-16 23:27 致于数据科学家的小陈 阅读(2586) 评论(0) 推荐(0) 编辑
摘要:Pandas will be a major tool of interest throughout(贯穿) much of the rest of the book. It contains data structures and manipulation tools designed to ma 阅读全文
posted @ 2019-11-15 20:35 致于数据科学家的小陈 阅读(489) 评论(0) 推荐(0) 编辑
摘要:The numpy.random module supplements(补充) the built in Python random with functions for efficiently generating whole arrays of sample values from many k 阅读全文
posted @ 2019-11-14 23:26 致于数据科学家的小陈 阅读(1718) 评论(0) 推荐(0) 编辑
摘要:File Input and Output NumPy is able to save and load data to and from disk either in text or binary format. In this section I only discuss NumPy's bui 阅读全文
posted @ 2019-11-13 21:06 致于数据科学家的小陈 阅读(351) 评论(0) 推荐(0) 编辑
摘要:Using NumPy arrays enables you to express many kinds of data processing tasks as concise(简明的) array expressions(不用写循环就能用数组表达很多数据过程) that might otherwi 阅读全文
posted @ 2019-11-13 20:59 致于数据科学家的小陈 阅读(369) 评论(0) 推荐(0) 编辑
摘要:why 回顾我的数据分析入门, 最开始时SPSS+EXCEL,正好 15年初是上大一下的时候, 因为统计学的还蛮好的, SPSS傻瓜式操作,上手挺方便,可渐渐地发现, 使用软件的最不好的地方是不够灵活, 不能为所欲为 , 编程语言才是最灵活的, 最还是用R, 命令式的, 也是感觉不太好是, 于是开始 阅读全文
posted @ 2019-11-12 01:13 致于数据科学家的小陈 阅读(537) 评论(0) 推荐(0) 编辑
摘要:Mysql Join 连接查询(中) 认识 就我平时的数据接触来看, 连接查询也没有很复杂,不够是非常需要耐心和逻辑的, 一点点将数据查出来, 拼接等. 没有什么技巧, 多练习就会了. 无非就是 表之间根据共同key来连接, 查询时结合union, where, 子查询这些... , 真的不难的, 阅读全文
posted @ 2019-11-10 01:11 致于数据科学家的小陈 阅读(473) 评论(0) 推荐(0) 编辑
摘要:其实,我的业务流程是, 先读取excel/csv -> pandas 数据清洗 -> 导入Mysql, 一般是做一个表append 或者是 if exist -> replace的操作 逐行来添加数据其实更加灵活和方便. 这里用的驱动是pymysql的一个包, 其实本质就是一个客户端, 服务端已经和 阅读全文
posted @ 2019-11-07 15:13 致于数据科学家的小陈 阅读(1307) 评论(0) 推荐(0) 编辑
摘要:之前弄数据库的时候, 测试excel导mysql, 中间用pandas 处理后再入库. 直接上代码, 此种有真意, 尽在不言中. 1 #!/usr/bin/env python 2 # coding: utf-8 3 # author: chenjie131@ke.com 4 5 ''' 6 应用场 阅读全文
posted @ 2019-11-07 14:16 致于数据科学家的小陈 阅读(4057) 评论(0) 推荐(0) 编辑
摘要:直接上代码 在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢. 阅读全文
posted @ 2019-11-05 22:48 致于数据科学家的小陈 阅读(837) 评论(0) 推荐(0) 编辑
摘要:认识 Python 的itertools模块提供了很多 节省内存的高效迭代器 , 尤其解决了一些关于数据量太大而导致 内存溢出(outofmemory) 的场景. 我们平时用的循环绝大多数是这样的. 不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个 阅读全文
posted @ 2019-11-05 01:14 致于数据科学家的小陈 阅读(249) 评论(0) 推荐(0) 编辑
摘要:认识 多表连接查询 ,我感觉应该是关系型数据库最能体现其价值和灵活性的地方吧. 我觉得数据库的作用, 归纳起来无非就是 存储和查询 . 一言蔽之,数据库就是能灵活地存储和查询数据. 存储上, 也是以文件的方式存的(Linux观点, 一切皆文件), 文件就是存储数据的载体, 数据库文件跟其他的数据文件 阅读全文
posted @ 2019-11-03 21:43 致于数据科学家的小陈 阅读(1726) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示