11 2016 档案

摘要:参考 作者:刘帝伟 原文地址:http://www.csuldw.com/ 损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是 阅读全文
posted @ 2016-11-28 14:42 tonglin0325 阅读(976) 评论(0) 推荐(1) 编辑
摘要:当做重要决定时,我们可能会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题也是这样,这就是元算法(meta-algorithm)背后的思路。 元算法是对其他算法进行组合的一种方式,其中最流行的一种算法就是AdaBoost算法。某些人认为AdaBoost是最好的监督学习的方法,所以该方法是机器学 阅读全文
posted @ 2016-11-27 21:49 tonglin0325 阅读(1115) 评论(0) 推荐(1) 编辑
摘要:对于线性不可分的数据集,可以利用核函数(kernel)将数据转换成易于分类器理解的形式。 如下图,如果在x轴和y轴构成的坐标系中插入直线进行分类的话, 不能得到理想的结果,或许我们可以对圆中的数据进行某种形式的转换,从而得到某些新的变量来表示数据。在这种表示情况下,我们就更容易得到大于0或者小于0的 阅读全文
posted @ 2016-11-27 19:52 tonglin0325 阅读(9883) 评论(0) 推荐(0) 编辑
摘要:Platt SMO算法是通过一个外循环来选择第一个alpha值的,并且其选择过程会在两种方式之间进行交替: 一种方式是在所有数据集上进行单遍扫描,另一种方式则是在非边界alpha中实现单遍扫描。 所谓非边界alpha指的就是那些不等于边界0或者C的alpha值。对整个数据集的扫描相当容易,而实现非边 阅读全文
posted @ 2016-11-26 15:41 tonglin0325 阅读(1299) 评论(0) 推荐(0) 编辑
摘要:或者编写Shell脚本restart_sougou.sh,放到/usr/bin目录下,不要忘记chmod修改运行权限,然后就能在终端输入restart_sougou命令来执行重启搜狗输入法 阅读全文
posted @ 2016-11-23 21:47 tonglin0325 阅读(4463) 评论(1) 推荐(1) 编辑
摘要:搜索广告是指广告主根据自己的产品或服务的内容、特点等,确定相关的关键词,撰写广告内容并自主定价投放的广告。 参考:互联网搜索广告介绍(一) 互联网搜索广告介绍(二) 阅读全文
posted @ 2016-11-23 10:21 tonglin0325 阅读(280) 评论(0) 推荐(0) 编辑
摘要:1.Mongo集群类型 1.Master/Slave 已经不推荐 2.Replica Set 3.Sharded Cluster,其包含3个组件:mongos,config server和mongod 参考:mongodb 三种集群的区别(Replica Set / Sharding / Maste 阅读全文
posted @ 2016-11-19 16:33 tonglin0325 阅读(297) 评论(0) 推荐(0) 编辑
摘要:SVM有很多实现,现在只关注其中最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,SMO)算法,然后介绍如何使用一种核函数(kernel)的方式将SVM扩展到更多的数据集上。 1.基于最大间隔分隔数据 几个概念: 1.线性可分(linearly sep 阅读全文
posted @ 2016-11-18 17:10 tonglin0325 阅读(11910) 评论(0) 推荐(0) 编辑
摘要:1.广告归因的概念 在做用户增长的时候需要对各渠道(广告投放平台,如腾讯广告、字节-巨量引擎、百度营销平台等)上的投放效果进行广告归因,归因的作用是判断用户从何渠道下载应用(或打开落地页、小程序),通过匹配用户广告行为,分析是何原因促使用户产生转化。 广告归因的数据结果是衡量广告效果、评估渠道质量的 阅读全文
posted @ 2016-11-16 22:02 tonglin0325 阅读(1032) 评论(0) 推荐(0) 编辑
摘要:梯度下降法是一个最优化算法,通常也称为最速下降法。 最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。 最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。 可以用于求解非线性方程组。 阅读全文
posted @ 2016-11-15 21:21 tonglin0325 阅读(2002) 评论(0) 推荐(0) 编辑
摘要:参考:https://medium.com/@hansrajchoudhary_88463/scylladb-architecture-understanding-consistent-hashing-bloom-filters-memtable-and-sstable-95d95a27920f 阅读全文
posted @ 2016-11-15 11:19 tonglin0325 阅读(786) 评论(0) 推荐(0) 编辑
摘要:1.基于Logistic回归和Sigmoid函数的分类 2.基于最优化方法的最佳回归系数确定 2.1 梯度上升法 参考:机器学习——梯度下降算法 2.2 训练算法:使用梯度上升找到最佳参数 Logistic回归梯度上升优化算法 2.3 分析数据:画出决策边界 画出数据集和Logistic回归最佳拟合 阅读全文
posted @ 2016-11-15 10:36 tonglin0325 阅读(1357) 评论(0) 推荐(0) 编辑
摘要:1.基于贝叶斯决策理论的分类方法 2.使用朴素贝叶斯进行文档分类 使用Python进行文本分类 1.准备数据:从文本中构建词向量 2.训练算法:从词向量计算概率 3.测试算法:根据现实情况修改分类器 朴素贝叶斯分类函数 4.准备数据:文档词袋模型 示例:使用朴素贝叶斯过滤垃圾邮件 1.准备数据:切分 阅读全文
posted @ 2016-11-13 19:45 tonglin0325 阅读(724) 评论(0) 推荐(0) 编辑
摘要:如果遇到auth遗忘,又想删除zknode的情况,可以使用超级用户用来删除zknode 超级用户只能在zkserver启动的时候启用,需要在zkserver的启动命令中添加 -Dzookeeper.DigestAuthenticationProvider.superDigest 参数 -Dzooke 阅读全文
posted @ 2016-11-13 15:59 tonglin0325 阅读(830) 评论(0) 推荐(0) 编辑
摘要:官方文档:https://pandas.pydata.org/docs/reference/index.html 1.loc属性,通过标签或布尔数组访问一组行和列。pandas.DataFrame.loc >>> df = pd.DataFrame([[1, 2], [4, 5], [7, 8]], 阅读全文
posted @ 2016-11-11 16:58 tonglin0325 阅读(2220) 评论(0) 推荐(0) 编辑
摘要:查看当前安装的linux内核版本号 查看当前使用的内核版本号 卸载不需要的内核 最后使用df命令查看boot的占用情况 阅读全文
posted @ 2016-11-11 10:20 tonglin0325 阅读(1580) 评论(0) 推荐(0) 编辑
摘要:1.决策树的构造 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能会产生过度匹配问题 适用数据类型:数值型和标称型 2.划分数据集 3.递归构建决策树 4.在Python中使用Matplotlib注解绘制树形图 5.构造注解树 获取叶节点的数目和树的层 阅读全文
posted @ 2016-11-10 10:48 tonglin0325 阅读(2299) 评论(0) 推荐(0) 编辑
摘要:k-近邻算法(kNN)采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应 阅读全文
posted @ 2016-11-08 22:39 tonglin0325 阅读(428) 评论(0) 推荐(0) 编辑
摘要:1.scylla部署 docker单机部署 可以使用docker镜像来启动scyllaDB docker集群部署 也可以使用docker镜像来部署scyllaDB集群 docker run --name scylla -p 9042:9042 -p 9160:9160 -p 10000:10000 阅读全文
posted @ 2016-11-08 22:28 tonglin0325 阅读(4827) 评论(0) 推荐(0) 编辑
摘要:1.机器学习的主要任务:一是将实例数据划分到合适的分类中,即分类问题。 而是是回归, 它主要用于预测数值型数据,典型的回归例子:数据拟合曲线。 2.监督学习和无监督学习: 分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须直到预测什么,即目标变量的分类信息。 对于无监督学习,此时数据没 阅读全文
posted @ 2016-11-08 22:01 tonglin0325 阅读(11379) 评论(0) 推荐(0) 编辑
摘要:1.添加driver hive集群的版本是1.1.0-cdh5.16.2,而datagrip自带的hive driver版本是3.1.1和3.1.2,所以需要自行添加driver 参考:kerberos-2.datagrip(jdbc)连接hive kerberos add custome JARs 阅读全文
posted @ 2016-11-08 15:23 tonglin0325 阅读(1389) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示