摘要: 对于一个文本字符串,可以使用Python的string.split()方法将其切割。下面看看实际运行效果。 输出: 可以看到,切分的效果不错,但是标点符号也被当成了词,可以使用正则表达式来处理,其中分隔符是除单词、数字外的任意字符串。 输出为: 现在得到了一系列词组成的词表,但是里面的空字符串需要去 阅读全文
posted @ 2017-07-26 11:03 debuggor 阅读(672) 评论(0) 推荐(0) 编辑
摘要: Python中的ctypes模块可能是Python调用C方法中最简单的一种。ctypes模块提供了和C语言兼容的数据类型和函数来加载dll文件,因此在调用时不需对源文件做任何的修改。也正是如此奠定了这种方法的简单性。 示例如下 实现两数求和的C代码,保存为add.c 接下来将C文件编译为.so文件( 阅读全文
posted @ 2017-07-26 00:14 debuggor 阅读(28933) 评论(1) 推荐(0) 编辑
摘要: 1、朴素贝叶斯算法介绍 一个待分类项x=(a,b,c...),判断x属于y1,y2,y3...类别中的哪一类。 贝叶斯公式: 算法定义如下: (1)、设x={a1, a2, a3, ...}为一个待分类项,而a1, a2, a3...分别为x的特征 (2)、有类别集合C={y1, y2, y3, . 阅读全文
posted @ 2017-07-25 23:01 debuggor 阅读(2268) 评论(0) 推荐(0) 编辑
摘要: Scikit-Learn(决策树)可以用于方法分类和回归。 一、分类 sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_sam 阅读全文
posted @ 2017-07-25 18:57 debuggor 阅读(2159) 评论(0) 推荐(0) 编辑
摘要: 决策树c4.5算法是在决策树ID3上面演变而来。 在ID3中: 信息增益 按属性A划分数据集S的信息增益Gain(S,A)为样本集S的熵减去按属性A划分S后的样本子集的熵,即 在此基础上,C4.5计算如下: 分裂信息 利用引入属性的分裂信息来调节信息增益 信息增益率 信息增益率将分裂信息作为分母,属 阅读全文
posted @ 2017-07-25 15:44 debuggor 阅读(1473) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-07-24 23:25 debuggor 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 1、决策树原理 1.1、定义 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。 举一个通俗的栗子,各位立志于脱单的单身男女在找对象的时候就已经完完全全使用了决策树的思想。假设一位母亲在给女儿介 阅读全文
posted @ 2017-07-24 21:52 debuggor 阅读(6416) 评论(0) 推荐(0) 编辑
摘要: 1、K-近邻算法原理 1.1 算法特点 简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型 1.2 工作原理 存在一个训练样本集,并且每个样本都存在标签(有监督学习)。输入没有 阅读全文
posted @ 2017-07-24 19:47 debuggor 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 监督学习:分类和回归属于监督学习。这类算法必须知道预测什么,即目标变量的分类信息。 常见算法:k-近邻算法、线性回归、朴素贝叶斯算法、支持向量机、决策树、Lasso最小回归系数估计、Ridge回归、局部加权线性回归 无监督学习:数据没有类别信息,不给定目标值。 常见算法:K-均值、最大期望算法、DB 阅读全文
posted @ 2017-07-24 15:22 debuggor 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 1、*args 的用法 *args 和 **kwargs 主要用于函数定义。 你可以将不定数量的参数传递给一个函数。 这里的不定的意思是:预先并不知道, 函数使用者会传递多少个参数给你, 所以在这个场景下使用这两个关键字。 *args 是用来发送一个非键值对的可变数量的参数列表给一个函数. 2、** 阅读全文
posted @ 2017-07-24 10:12 debuggor 阅读(222) 评论(0) 推荐(0) 编辑