摘要: 布隆过滤器的作用就是判断元素,在某个元素集中是否存在。 hashmap的问题 实际上hashmap也能达到同样的效果,但与布隆过滤器的区别如下: hashmap的大致原理就是,把所有装入的键值对都存到一个Entry对象里,然后根据key值hash出一个常数,作为该键值对的索引值,并把键值对存入与索引 阅读全文
posted @ 2019-05-14 21:33 Red_Code 阅读(251) 评论(0) 推荐(0) 编辑
摘要: ID3决策树 ID3决策树分类的根据是样本集分类前后的信息增益。 假设我们有一个样本集,里面每个样本都有自己的分类结果。 而信息熵可以理解为:“样本集中分类结果的平均不确定性”,俗称信息的纯度。 即熵值越大,不确定性也越大。 不确定性计算公式 假设样本集中有多种分类结果,里面某一种结果的“不确定性” 阅读全文
posted @ 2019-03-25 19:02 Red_Code 阅读(1890) 评论(0) 推荐(0) 编辑
摘要: 说明:每个样本都会装入Data样本对象,决策树生成算法接收的是一个Array<Data>样本列表,所以构建测试数据时也要符合格式,最后生成的决策树是树的根节点,通过里面提供的showTree()方法可查看整个树结构,下面奉上源码。 Data.java DecisionTree.java Start. 阅读全文
posted @ 2019-02-22 19:05 Red_Code 阅读(719) 评论(0) 推荐(0) 编辑
摘要: 1、首先将虚拟机网络模式选为NAT模式 2、点击高级,查看MAC地址 然后编辑:/etc/udev/rules.d/70-persistent-net.rules 其中teh是网卡的名称,每一次克隆新主机,新主机都会把自己的Mac地址等信息配好,然后新建一个eth,数字加一。但实际上每次只能识别第一 阅读全文
posted @ 2019-01-31 17:06 Red_Code 阅读(5177) 评论(0) 推荐(0) 编辑
摘要: 任务要求 统计指定时间内,指定git地址与svn地址上的所有人员的代码行变更情况。 解决方案 最初为根据数据库中存储的所有git与svn地址来统计所有人员的提交代码行。之后由于库中存储的地址不全,改为通过gitlab api,找到上面的所有仓库,之后统计代码行。svn由于数据库中地址存储较全,所以还 阅读全文
posted @ 2018-11-29 19:57 Red_Code 阅读(947) 评论(0) 推荐(0) 编辑
摘要: 前言 所谓构建决策树, 就是递归的对数据集参数进行“最优特征”的选择。然后按最优特征分类成各个子数据集,继续递归。 最优特征的选择:依次计算按照各个特征进行分类以后数据集的熵,各个子数据集的熵比较后,其中拥有最小的熵的数据集就是最优的分类结果,此次分类的特征就是最优特征。 熵的计算:熵计算的是数据集 阅读全文
posted @ 2018-10-26 15:10 Red_Code 阅读(1091) 评论(0) 推荐(0) 编辑
摘要: 实现的功能 git 根据传入的三个参数:起始统计日期、结束统计日期、git仓库地址。 脚本统计的是git仓库内的所有分支的log信息。 脚本统计的是指定时间段内、每一个提交人指定的git地址的所有分支里的提交代码行的新增情况。 其中代码行可分别统计出:新增的有效代码行数、新增的空行数、新增的注释行数 阅读全文
posted @ 2018-10-17 13:50 Red_Code 阅读(1660) 评论(0) 推荐(0) 编辑
摘要: 前言 构建决策树的前提: 与之前讲的那些回归算法一样,如果想要构建一颗决策树,首先你手里得有大量的已经知道结果的样本数据。 比如你想通过决策树来分析一个人是否是罪犯,那么你手里就必须得有一定量的人类样本。并且还得从这些人类样本身上提取出各种用于分类的特征,如是否有纹身、学历高低、是否有刀疤等。 然后 阅读全文
posted @ 2018-09-07 17:48 Red_Code 阅读(541) 评论(1) 推荐(1) 编辑
摘要: 前言 逻辑回归与线性回归都是回归,使用什么回归函数,是通过数据来决定的。 而逻辑回归的数据的特点就是“x自变量向量组对应的y值只有1和0两个值”。 所以我们自然希望能找到一种方程,将x代入,得出来的值只有1或0两种。 根据经验可知sigmoid函数很符合我们的需求,sigmoid函数随着自变量的不断 阅读全文
posted @ 2018-09-03 19:33 Red_Code 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 以回归方程为例,最后的回归方程无论是直线还是曲线,方程除了应有的自变量外,还存在各种常量参数,这些参数的不同,直接影响着最终方程。 还是以回归问题为例。 假设我们要将数据线性回归到某条直线上(逻辑回归等其他回归同理)。 那么我们首先能设这个回归方程为:y(x) = θ1x+θ2 其中x和y在某种程度 阅读全文
posted @ 2018-08-24 19:24 Red_Code 阅读(623) 评论(0) 推荐(0) 编辑