随笔档案「2017年5月」 - 伏草惟存

【干货】Markdown编辑博文，公式图片轻松搞定

摘要：**Markdown** 是一种轻量级的「标记语言」，它的优点很多，目前也被越来越多的写作爱好者，撰稿者广泛使用。看到这里请不要被「标记」、「语言」所迷惑，Markdown 的语法十分简单。常用的标记符号也不超过十个，这种相对于更为复杂的 HTML 标记语言来说，Markdown 可谓是十分轻量的，学习成本也不需要太多，且一旦熟悉这种语法规则，会有一劳永逸的效果。[Markdown下载地址](https://pan.baidu.com/s/1eSzNSiA)。如果右侧不能即使显示请[下载安装awesomium](https://pan.baidu.com/s/1jIn411O) 阅读全文

posted @ 2017-05-22 19:41 伏草惟存阅读(1243) 评论(0) 推荐(3)

【NLP】Python实例：基于文本相似度对申报项目进行查重设计

摘要：关于查重系统很多人并不陌生，无论本科还是硕博毕业都不可避免涉及论文查重问题，这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核，传统的方式人力物力比较大，且伴随季度性的繁重工作，效率不高。基于此，单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献，终未得到有价值的参考资料，这个也是自然。首先类似知网，paperpass这样的商业公司其毕业申报专利并进行保密，其他科研单位因发展需要也不会开源。笔者就结合NLP相关知识进行设计一款自主的查重系统，首先采用自然语言处理方法主要提出两个模型：科技项目查重的训练模型和科技项目查重的测试模型。其中训练模型主要对数据的清洗预处理及其规约化处理，测试系统也是主查重系统，对其查重原理和性能进行设计实现。最后将其封装成包，PHP或者Java等语言调用即可。（本文原创编著，转载注明出处:Python实例：申报项目查重系统设计与实现）阅读全文

posted @ 2017-05-18 17:53 伏草惟存阅读(19275) 评论(4) 推荐(0)

【NLP】3000篇搜狐新闻语料数据预处理器的python实现

摘要：关于自然语言处理模型训练亦或是数据挖掘、文本处理等等，均离不开数据清洗，数据预处理的工作。这里的数据不仅仅指狭义上的文本数据，当然也包括视频数据、语音数据、图片数据、监控的流数据等等。其中数据预处理也有必要强调下，决然不是简单是分词工具处理后，去去停用词那么简单。即使去停用词，你选择的粒度尺寸也是有影响的，这跟工作性质和精确度要求也有着紧密的联系。其次选择多大的规模以及怎样维度都是有讲究的。本文由于主要针对新闻文本语料处理，经处理后可用于文本分类、文本聚类、特征提取、文本摘要等学习模型的训练。首先本文介绍下新闻语料的文本信息和编码问题；其次，对本实验运行的环境进行简单介绍，以及整个预处理器的框架构造；接着对单文本和批量文本的预处理工作的原理和实现介绍；还有对python如何调用java程序也通过实例进行演示。最后，对jieba分词工具的主要实现进行补充。本人邮箱：datathinks@qq.com，主页：http://www.cnblogs.com/baiboy/（本文原创，转载请标注原文出处:3000篇搜狐新闻语料数据预处理器的python实现）阅读全文

posted @ 2017-05-05 19:46 伏草惟存阅读(5261) 评论(1) 推荐(1)

05 2017 档案