11 2019 档案
摘要:线性回归的推导和求解. 分别从 矩阵代数, 微积分, 概率论, Pyhton 实现求解等, 巩固我的6年经验了.
阅读全文
摘要:号称全站最直观解释-smv核函数-是干啥
阅读全文
摘要:核函数(Kernel) 的 SVM, 解决线性不可分问题.
阅读全文
摘要:Max Margin svm 即Suport Vector Machine, 中文意为: 支持向量机 . 对于 二分类 问题, 在样本空间中(即便是多维向量, 在空间中可表示为一个点). svm的核心思想就是 假设在这2波点的边缘处, 能找到一条直线 , 能够把这2波点分开,
阅读全文
摘要:对偶(Duality)问题 KKT 条件
阅读全文
摘要:pandas 中, 关于字符串处理的常用api总结
阅读全文
摘要:数据映射, 离散化, 异常值, 重采样, one-hot coding....
阅读全文
摘要:数据清洗-缺失值处理(drop, fill)
阅读全文
摘要:初步认识求解LP用单纯形算法
阅读全文
摘要:需求 最近在看工作机会, 然后做了一道华为外包的笔试题. 我咋眼一看, 这种送分题, 能难住我? 构造一个字典, 统计词频 sorted() 按值排序即可 求解 用内置函数sorted() 正准备提交, 才发现, 不能用内置, 要自己写排序 , 这一下, 难度立马升级了 短时间内要写出排序算法 数据
阅读全文
摘要:
阅读全文
摘要:认识LP 线性规划(Linear Programming) 特指目标函数和约束条件皆为线性的最优化问题. 目标函数: 多个 变量 形成的函数 约束条件: 由多个 等式/不等式 形成的约束条件 线性规划: 在 线性约束条件下,目标函数求极值的问题 可行解: 满足线性约束条件下的解 可行域: 所有可行解
阅读全文
摘要:认识 jupyter地址: pandas objects are equipped(配备的) with a set of common mathematical and statistical methods. Most of these fall into the categrory of red
阅读全文
摘要:This section will walk you(引导你) through the fundamental(基本的) mechanics(方法) of interacting(交互) with the data contained in a Series or DataFrame. (引导你去了
阅读全文
摘要:Pandas will be a major tool of interest throughout(贯穿) much of the rest of the book. It contains data structures and manipulation tools designed to ma
阅读全文
摘要:The numpy.random module supplements(补充) the built in Python random with functions for efficiently generating whole arrays of sample values from many k
阅读全文
摘要:File Input and Output NumPy is able to save and load data to and from disk either in text or binary format. In this section I only discuss NumPy's bui
阅读全文
摘要:Using NumPy arrays enables you to express many kinds of data processing tasks as concise(简明的) array expressions(不用写循环就能用数组表达很多数据过程) that might otherwi
阅读全文
摘要:why 回顾我的数据分析入门, 最开始时SPSS+EXCEL,正好 15年初是上大一下的时候, 因为统计学的还蛮好的, SPSS傻瓜式操作,上手挺方便,可渐渐地发现, 使用软件的最不好的地方是不够灵活, 不能为所欲为 , 编程语言才是最灵活的, 最还是用R, 命令式的, 也是感觉不太好是, 于是开始
阅读全文
摘要:Mysql Join 连接查询(中) 认识 就我平时的数据接触来看, 连接查询也没有很复杂,不够是非常需要耐心和逻辑的, 一点点将数据查出来, 拼接等. 没有什么技巧, 多练习就会了. 无非就是 表之间根据共同key来连接, 查询时结合union, where, 子查询这些... , 真的不难的,
阅读全文
摘要:其实,我的业务流程是, 先读取excel/csv -> pandas 数据清洗 -> 导入Mysql, 一般是做一个表append 或者是 if exist -> replace的操作 逐行来添加数据其实更加灵活和方便. 这里用的驱动是pymysql的一个包, 其实本质就是一个客户端, 服务端已经和
阅读全文
摘要:之前弄数据库的时候, 测试excel导mysql, 中间用pandas 处理后再入库. 直接上代码, 此种有真意, 尽在不言中. 1 #!/usr/bin/env python 2 # coding: utf-8 3 # author: chenjie131@ke.com 4 5 ''' 6 应用场
阅读全文
摘要:直接上代码 在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢.
阅读全文
摘要:认识 Python 的itertools模块提供了很多 节省内存的高效迭代器 , 尤其解决了一些关于数据量太大而导致 内存溢出(outofmemory) 的场景. 我们平时用的循环绝大多数是这样的. 不难发现, 这就是迭代器嘛, 真的没啥.跟join差不多. 那么它是如何节省内存的呢, 其实就是一个
阅读全文
摘要:认识 多表连接查询 ,我感觉应该是关系型数据库最能体现其价值和灵活性的地方吧. 我觉得数据库的作用, 归纳起来无非就是 存储和查询 . 一言蔽之,数据库就是能灵活地存储和查询数据. 存储上, 也是以文件的方式存的(Linux观点, 一切皆文件), 文件就是存储数据的载体, 数据库文件跟其他的数据文件
阅读全文