志青云集

[置顶] NLP舞动之中文分词浅析（一）

摘要：针对现有中文分词在垂直领域应用时，存在准确率不高的问题，本文对其进行了简要分析，对中文分词面临的分词歧义及未登录词等难点进行了介绍，最后对当前中文分词实现的算法原理(基于词表、统计以及序列标注等算法)进行了简要阐述，并对比了现有技术的优缺点，并给出了本文作者在工程应用上的中文分词调优的经验分享。阅读全文

posted @ 2019-09-21 13:12 志青云集阅读(855) 评论(1) 推荐(0)

[置顶] 自然语言处理之维特比算法

摘要：鉴于维特比算法可解决多步骤中每步多选择模型的最优选择问题，本文简要介绍了维特比算法的基本理论，并从源代码角度对维特比算法进行剖析，并对源码中涉及的要点进行了解读，以便能快速应用该算法解决自然语言处理中的问题。阅读全文

posted @ 2017-04-08 20:29 志青云集阅读(1611) 评论(0) 推荐(0)

[置顶] 数据挖掘之权重计算（PageRank）

摘要：鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要，本文基于MapReduce计算模型实现了PageRank算法。为验证本文算法的有效性，本文采用177万余条源URL到目标URL链接的数据集，并迭代101次来展开测试，测试结果表明：对上述数据集进行测试，总计耗时40.29分钟。但是，本文作者的意图并不是为了实现该算法，而是将该算法的设计思想引入后续Web抓取服务的优化与改进之中，以及后续文本挖掘中对权重值计算的需要之中。阅读全文

posted @ 2015-11-16 22:33 志青云集阅读(5900) 评论(0) 推荐(0)

[置顶] 文本挖掘之文本聚类（MapReduce）

摘要：针对大数量的文本数据，采用单线程处理时，一方面消耗较长处理时间，另一方面对大量数据的I/O操作也会消耗较长处理时间，同时对内存空间的消耗也是很大，因此，本文引入MapReduce计算模型，以分布式方式处理文本数据，以期提高数据处理速率。本文结合Kmeans和DBSCAN算法，对上述算法进行改进，其中借鉴Kmeans聚类方法（类别个数的确定性）以及DBSCAN聚类方法（基于密度），并在数据处理过程中引入多个Reducer对数据进行归并处理。测试结果表明：在文本个数为457条，迭代次数为50次时，该算法具有可行性；但是在数据规模较小时，其处理速率较单线程处理存在一定的劣势，但是当数据量继续增大（数据量达到一定规模）时，基于分布式的算法，其速率优势会更加明显。阅读全文

posted @ 2015-11-12 23:56 志青云集阅读(2530) 评论(1) 推荐(1)

[置顶] 文本挖掘之文本聚类（OPTICS）

摘要：鉴于DBSCAN算法对输入参数，领域半径E和阈值M比较敏感，在参数调优时比较麻烦，因此本文对另一种基于密度的聚类算法OPTICS展开研究，其为DBSCAN的改进算法，与DBSCAN相比，该算法对输入参数不敏感。此外，OPTICS算法不显示地生成数据聚类，其只是对数据对象集合中的对象进行排序，获取一个有序的对象列表，其中包含了足够的信息能用来提取聚类。在实际的应用中，可利用该有序的对象序列，对数据的分布展开分析以及对数据的关联进行分析。阅读全文

posted @ 2015-11-09 19:42 志青云集阅读(2317) 评论(0) 推荐(0)

[置顶] 文本挖掘之文本聚类（DBSCAN）

摘要：鉴于基于划分的文本聚类方法只能识别球形的聚类，因此本文对基于密度的文本聚类算法展开研究。DBSCAN是一种典型的基于密度的聚类方法，可以找出形状不规则的聚类，而且聚类时无需事先知道聚类的个数。阅读全文

posted @ 2015-11-09 18:09 志青云集阅读(12950) 评论(0) 推荐(0)

[置顶] 文本挖掘之文本聚类（借力打力）

摘要：在文本相似度判定中，作者将该算法用于文本聚类中，其核心思想通过比较两个文本向量中元素的相似度，即向量中所含的元素相似个数越多，则两个向量越相似，继而上述文本越相似。作者在短文本相似判定中采用了余弦相似度该算法来实现，本文借鉴数学集合取交集，借用现有组件来实现上述算法功能，继而减少工作量，也具备便捷性，也能取得较好的效果。阅读全文

posted @ 2015-10-25 11:03 志青云集阅读(2890) 评论(0) 推荐(0)

[置顶] 文本挖掘之文本相似度判定

摘要：针对文本相似判定，本文提供余弦相似度和SimHash两种算法，并根据实际项目遇到的一些问题，给出相应的解决方法。经过实际测试表明：余弦相似度算法适合于短文本，而SimHash算法适合于长文本，并且能应用于大数据环境中。阅读全文

posted @ 2015-10-15 09:19 志青云集阅读(34631) 评论(6) 推荐(4)

[置顶] 文本挖掘之文本情感分析

摘要：基于规则的分类方法采用特定的分类规则，比较理性，符合行为认知；基于统计的分类方法依赖机器学习的经验，根据概率统计方法确定分类，能取得较好的分类效果。从整体上看，基于规则和统计的分类方法各有千秋，目前的主要研究方向为采用两者的结合，提高分类的精确度。阅读全文

posted @ 2015-09-19 13:27 志青云集阅读(14812) 评论(0) 推荐(0)

踩坑踩坑之Flask+ uWSGI + Tensorflow的Web服务部署

摘要：作为算法开发人员，在算法模块完成后，拟部署Web服务以对外提供服务，从而将算法模型落地应用。本文针对首次基于Flask + uWSGI + Tensorflow + Nginx部署Web服务时可能会遇到的问题进行简要分析，并提供解决方案，以供大家参考。阅读全文

posted @ 2019-10-09 17:53 志青云集阅读(3791) 评论(0) 推荐(0)

Linux应用小技巧

摘要：本文针对Linux操作过程中提升工作效率问题，给出常见操作技巧，主要从Linux终端管理、显示git分支、终端快速检索历史命令等方面进行介绍。阅读全文

posted @ 2017-04-09 21:51 志青云集阅读(495) 评论(0) 推荐(0)

Java下Elasticsearh应用指南

摘要：本文针对在Java下操作elasticsearch给出应用示例，主要涉及创建连接，构建索引以及检索数据3个部分。阅读全文

posted @ 2017-04-09 20:58 志青云集阅读(345) 评论(0) 推荐(0)

文本挖掘之文本推荐（子集合生成）

摘要：在研究文本推荐算法时，需要挖掘关键字之间的规则，其中比较重要的一步是构建关键字的集合，即需要求取一个集合的所有子集。因此本文根据需求，采用二叉树递归、位图和集合3种方式实现该算法，以期对后续算法研究提供帮助。阅读全文

posted @ 2015-11-09 19:53 志青云集阅读(1576) 评论(0) 推荐(0)

公告

导航