摘要: 通过朴素贝叶斯在垃圾邮件分类中的实践进行说明机器学习的一般流程,主要是一些数学公式上的推导 阅读全文
posted @ 2020-07-17 21:38 yhzhou 阅读(482) 评论(0) 推荐(0) 编辑
摘要: 对NLP中的语言模型进行说明,涉及Unigram、Bigram、trigram进行了公式说明,同时针对语料不足导致的问题增加了平滑项说明。 阅读全文
posted @ 2020-07-16 22:01 yhzhou 阅读(1283) 评论(0) 推荐(0) 编辑
摘要: Good-turning平滑处理的相关公式整理 阅读全文
posted @ 2020-07-15 23:02 yhzhou 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 对Faiss的IndexFlatL2、IndexIVFFlat、IndexIVFPQ三种索引方式进行代码测试对比 阅读全文
posted @ 2019-03-21 08:31 yhzhou 阅读(11028) 评论(1) 推荐(0) 编辑
摘要: Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集(备注:向量集大小由RAM内存决定)的算法,以及用于算法评估和参数调整的支持代码。Faiss用C++编写,并提供与Numpy完美衔接的Python接口。除此以外,对一些核心算法提供了GPU实现。本文对Faiss安装及原理进行简单说明,部分内容参考文章中引用内容。 阅读全文
posted @ 2019-03-20 23:05 yhzhou 阅读(59959) 评论(0) 推荐(4) 编辑
摘要: 快速排序由C. A. R. Hoare在1962年提出。它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。 算法处理过程(截图参考 坐 阅读全文
posted @ 2018-06-26 18:29 yhzhou 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 目前项目大都开始采用SSM结构进行搭建,因为涉及项目比较多,新来的需求都是从现有项目中迁移一份出来进行修改,有的时候两个项目差别还是比较大,并不完全需要原有项目的东西,进行删减也是一项费神费时的事情,这里拉一个简单的demo,后续新的需求直接改用该项目。 具体如下几个步骤,搭建一个简单的基于mave 阅读全文
posted @ 2018-06-08 16:22 yhzhou 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 此部分内容是对机器学习实战一书的第五章的数学推导,主要是对5.2节代码实现中,有一部分省去了相关的公式推导,这里进行了推导,后续会将算法进行java实现。此部分同样因为公式较多,采用手写推导,拍照记录的方式。 第一部分推导目标函数 第二部分采用梯度下降方法进行优化 至此两部分就完成了对logisti 阅读全文
posted @ 2018-06-07 13:30 yhzhou 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 在上篇文章中对libsvm的流程和简单的java代码测试做了说明,本篇简单对libsvm如何在工程中实践进行简短说明,不当的地方欢迎大家指正。 第一步是对libsvm的预测函数进行调整,我是从svm_predict类中抽取部分代码组成预测防范,代码如下: /** * 对传入的文本特征根据训练好的分类 阅读全文
posted @ 2018-06-05 16:01 yhzhou 阅读(746) 评论(0) 推荐(0) 编辑
摘要: 使用libSvm实现文本分类的基本过程,此文参考 使用libsvm实现文本分类 对前期数据准备及后续的分类测试进行了验证,同时对文中作者的分词组件修改成hanLP分词,对数字进行过滤,仅保留长度大于1的词进行处理。 转上文作者写的分类流程: 文本预处理阶段,增加了基于hanLP的分词,代码如下: / 阅读全文
posted @ 2018-05-31 09:42 yhzhou 阅读(2545) 评论(0) 推荐(0) 编辑