摘要:
神经网络 特性 + 全连接 + 非线性 激活函数(保障神经网络的非线性, 在神经网络中的每一层添加一个激活函数) 类别 + Sigmod: 会出现梯度消失的现象 + RELU: 目前使用最多的激活函数, 表达式时Max(0, x) 计算过程 + 正向传输 + 反向传输 + 参数更新 + 形象一点就是 阅读全文
摘要:
机器学习常用函数解析 逻辑回归 from sklearn.preprocessing import StandardScaler from sklearn.linear\_model import LogisticRegression from imblearn.over_sampling impo 阅读全文
摘要:
机器学习常用工具 + jieba分词器 jieba.cut(content): 返回一个生成器, 迭代可以返回文本 jieba.lcut(content): 直接返回文本 jieba.cut\_for\_search(content): 搜索引擎模式 jieba.analyse extract\_t 阅读全文
摘要:
机器学习 K Means + 原理: 随机的再原始数据的图像中选择几个随机的点 分别以这些点为k, 也就是为中心, 对数据中其他的点的距离进行判断, 那个点里这随意的点中的一个最近, 就认为该点和随机点是同一类的 分类之后, 再从新分成的每一个堆中的再随机取出一个中心点, 重复第二步 最终, 阅读全文
摘要:
机器学习(二) 本文只提供机器学习整体框架 类, 方法与函数的使用请自行查看官方API 机器学习的步骤 数据采样(过采样与下采样) + 下采样: 目前不知道有第三方库实现, 自己实现的思路: 通过随机函数生成下标列表, 将下标连接在一起生成新的样本集合 + 过采样(更常用一些, 因为过采样的数据量比 阅读全文
摘要:
Python文本数据分析与处理(新闻摘要) 分词 + 使用jieba分词, 注意lcut只接受字符串 过滤停用词 TF IDF得到摘要信息或者使用LDA主题模型 + TF IDF有两种 jieba.analyse.extract_tags(content, topK=20, withWeight=F 阅读全文
摘要:
sklearn 就是因为有了像sklearn这样的黑箱库, 我们大部分时候做的是调试算法, 比较那个算法的性能好, 这就需要熟练算法的推导过程 preprocessing模块 pandas 机器学习知识点 recall与precision + recall: 称之为查全率, 通过学习出来的算法已经得 阅读全文
摘要:
数据分析 1. 提供了数据集合, 应该将他们分成两类, 一个是测试类, 一个是训练类 2. 深度学习中最难的就是特征提取 3. 并不是数据中的所有特征都有用的, 没有需要的使用DataFrame中的drop()去掉 4. one\ hot: 将string值转为int值,方便运算 pd.get\_d 阅读全文
摘要:
机器学习中的数学基础 微分学 + 求导数 + 求偏导数 以上两个通过公式或者使用泰勒公式进行逼近得到的 求f(x)在x0处的导数 根据泰勒公式: f(x) = f(x0) + f'(x0)(x x0) + f''(x0)(x x0)^2/2! + f'''(x0)(x x0)^3/3! + ... 阅读全文
摘要:
机器学习(包括监督学习, 无监督学习, 半监督学习与强化学习) 监督学习(包括分类与线性回归) 分类(标签的值为散列的"yes"或者"no", "good"或者"bad", "have"或者"don't have", 总之是bool值) 在分类中我已经将学习大致的思路讲完了, 所以下面就不会再重复了 阅读全文