摘要: 一. 数据集的准备与预处理 1 . 收集dataset (大量用户名--包含正常用户名与非法用户名) 包含两个txt文件 legal_name.txt ilegal_name.txt. 如下图所示 2. 用文件进行预处理 根据需求提取相应的特征, 输出成 csv 格式,包含特征列与label列 把合 阅读全文
posted @ 2018-07-10 10:57 曾先森在努力 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 一. What’s machine learningMachine Learning is the science of gettingcomputers to act without being explicitly programmed --- Andrew... 阅读全文
posted @ 2018-07-09 10:55 曾先森在努力 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 一 交叉验证交叉验证的目的在实际训练中,模型通常对训练数据好,但是对训练数据之外的数据拟合程度差。用于评价模型的泛化能力,从而进行模型选择。交叉验证的基本思想把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集... 阅读全文
posted @ 2018-07-07 17:06 曾先森在努力 阅读(1142) 评论(0) 推荐(1) 编辑
摘要: 一. 数据集的准备与预处理1 . 收集dataset (大量用户名--包含正常用户名与非法用户名)包含两个txt文件 legal_name.txt ilegal_name.txt. 如下图所示2. 用文件进行预处理# Data setsimport osimpo... 阅读全文
posted @ 2018-07-06 14:47 曾先森在努力 阅读(311) 评论(0) 推荐(0) 编辑
摘要: Naive Bayes-朴素贝叶斯Bayes’ theorem(贝叶斯法则)在概率论和统计学中,Bayes’ theorem(贝叶斯法则)根据事件的先验知识描述事件的概率。贝叶斯法则表达式如下所示P(A|B) – 在事件B下事件A发生的条件概率P(B|A) – 在事件... 阅读全文
posted @ 2018-07-04 16:17 曾先森在努力 阅读(2730) 评论(0) 推荐(0) 编辑
摘要: keras训练了个二分类的模型。需求是把keras模型跑到 tensorflow serving上 (TensorFlow Serving 系统用于在生产环境中运行模型)keras模型转 tensorflow模型我把 keras模型转tensorflow servin... 阅读全文
posted @ 2018-06-29 11:27 曾先森在努力 阅读(852) 评论(0) 推荐(0) 编辑
摘要: 1. 概述原文地址:TensorFlow and deep learning,without a PhDLearn TensorFlow and deep learning, without a Ph.D. B站视频地址:https://www.bilibili.c... 阅读全文
posted @ 2018-06-25 16:47 曾先森在努力 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 博文的翻译和实践: Understanding Stateful LSTM Recurrent Neural Networks in Python with Keras正文一个强大而流行的循环神经网络(RNN)的变种是长短期模型网络(LSTM)。它使用广泛,因为它的架... 阅读全文
posted @ 2018-05-29 11:06 曾先森在努力 阅读(1400) 评论(0) 推荐(0) 编辑
摘要: 集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。如何产生“好而不同”的个体学习器,是集成学习研究的核心。集成学习的思路是通过合并多个模型来提升机器学习性能,这种方法相较于当个单个模型通常能够获得更好的预测结果。这也是集... 阅读全文
posted @ 2018-05-24 12:11 曾先森在努力 阅读(983) 评论(0) 推荐(0) 编辑
摘要: 概述GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SV... 阅读全文
posted @ 2018-05-23 19:40 曾先森在努力 阅读(3882) 评论(0) 推荐(0) 编辑
摘要: CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分... 阅读全文
posted @ 2018-05-09 14:43 曾先森在努力 阅读(2248) 评论(0) 推荐(0) 编辑
摘要: SVM分类,就是找到一个平面,让两个分类集合的支持向量或者所有的数据(LSSVM)离分类平面最远;SVR回归,就是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。SVR是支持向量回归(support vector regression)的英文缩写,是支持向量... 阅读全文
posted @ 2018-05-09 12:29 曾先森在努力 阅读(14757) 评论(0) 推荐(1) 编辑
摘要: 首先我们需要明确一个概念,我们讨论的线性或者非线性针对的是自变量的系数,而非自变量本身,所以这样的话不管自变量如何变化,自变量的系数如果符合线性我们就说这是线性的。所以这里我们也就可以描述一下多项式线性回归。由此公式我们可以看出... 阅读全文
posted @ 2018-05-09 11:27 曾先森在努力 阅读(491) 评论(0) 推荐(0) 编辑
摘要: 线性回归是最贴近生活的数据模型之一简单的线性回归简单的线性回归公式如下:从公式中我们可以看出,简单线性回归只有一个自变量x1,b1是自变量的系数,y是因变量。x1可能是连续型或者离散型的数据,所以我们需要通过x1找出最合适的系数b1从而得到关于因变量y的曲线。我们下面... 阅读全文
posted @ 2018-05-09 10:58 曾先森在努力 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 深度学习中的weight initialization对模型收敛速度和模型质量有重要影响!在ReLU activation function中推荐使用Xavier Initialization的变种,暂且称之为He Initialization:import nump... 阅读全文
posted @ 2018-05-07 17:17 曾先森在努力 阅读(4178) 评论(0) 推荐(1) 编辑
摘要: 写在前面:本文原载于how-to-start-a-deep-learning-project,并且在机器之心上有翻译(如何从零开始构建深度学习项目?这里有一份详细的教程)。忽略中英文的标题,因为这并非是一个入门的详细教程,而是在深度学习应用中各个步骤阶段上经验汇总,写... 阅读全文
posted @ 2018-05-07 15:16 曾先森在努力 阅读(822) 评论(0) 推荐(0) 编辑
摘要: 从接触机器学习就了解到Andrew Ng的机器学习课程,后来发现又出来深度学习课程,就开始在网易云课堂上学习deeplearning.ai的课程,Andrew 的课真是的把深入浅出。当然学习这些课程还是要有一些基础的。线性代数,高等数学的一些知识。Andrew NG:... 阅读全文
posted @ 2018-04-20 18:12 曾先森在努力 阅读(566) 评论(0) 推荐(0) 编辑
摘要: Complete Small Focused Projects and Demonstrate Your Skills (完成小型针对性机器学习项目,证明你的能力)A portfolio is typically us... 阅读全文
posted @ 2018-04-18 18:40 曾先森在努力 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 相信看到这篇文章的朋友,几乎都想成为机器学习科学家。事实上,绝大多数的付费课程,基本上都有完全免费的课程放在另一个地方。我们只是把这些信息整理好,告诉你在哪儿可以找到他们,以及通过什么样的顺序进行学习。这样,哪怕你是还没毕业的大学生,或者是初入职场的工程师,都可以通过... 阅读全文
posted @ 2018-04-04 19:04 曾先森在努力 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 那添加L1和L2正则化有什么用?下面是L1正则化和L2正则化的作用,这些表述可以在很多文章中找到。L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合 阅读全文
posted @ 2018-04-03 18:06 曾先森在努力 阅读(315) 评论(0) 推荐(0) 编辑