05 2017 档案
摘要:**Markdown** 是一种轻量级的「标记语言」,它的优点很多,目前也被越来越多的写作爱好者,撰稿者广泛使用。看到这里请不要被「标记」、「语言」所迷惑,Markdown 的语法十分简单。常用的标记符号也不超过十个,这种相对于更为复杂的 HTML 标记语言来说,Markdown 可谓是十分轻量的,学习成本也不需要太多,且一旦熟悉这种语法规则,会有一劳永逸的效果。[Markdown下载地址](https://pan.baidu.com/s/1eSzNSiA)。如果右侧不能即使显示请[下载安装awesomium](https://pan.baidu.com/s/1jIn411O)
阅读全文
摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核,传统的方式人力物力比较大,且伴随季度性的繁重工作,效率不高。基于此,单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献,终未得到有价值的参考资料,这个也是自然。首先类似知网,paperpass这样的商业公司其毕业申报专利并进行保密,其他科研单位因发展需要也不会开源。笔者就结合NLP相关知识进行设计一款自主的查重系统,首先采用自然语言处理方法主要提出两个模型:科技项目查重的训练模型和科技项目查重的测试模型。其中训练模型主要对数据的清洗预处理及其规约化处理,测试系统也是主查重系统,对其查重原理和性能进行设计实现。最后将其封装成包,PHP或者Java等语言调用即可。(本文原创编著,转载注明出处:Python实例:申报项目查重系统设计与实现)
阅读全文
摘要:关于自然语言处理模型训练亦或是数据挖掘、文本处理等等,均离不开数据清洗,数据预处理的工作。这里的数据不仅仅指狭义上的文本数据,当然也包括视频数据、语音数据、图片数据、监控的流数据等等。其中数据预处理也有必要强调下,决然不是简单是分词工具处理后,去去停用词那么简单。即使去停用词,你选择的粒度尺寸也是有影响的,这跟工作性质和精确度要求也有着紧密的联系。其次选择多大的规模以及怎样维度都是有讲究的。本文由于主要针对新闻文本语料处理,经处理后可用于文本分类、文本聚类、特征提取、文本摘要等学习模型的训练。首先本文介绍下新闻语料的文本信息和编码问题;其次,对本实验运行的环境进行简单介绍,以及整个预处理器的框架构造;接着对单文本和批量文本的预处理工作的原理和实现介绍;还有对python如何调用java程序也通过实例进行演示。最后,对jieba分词工具的主要实现进行补充。本人邮箱:datathinks@qq.com,主页:http://www.cnblogs.com/baiboy/(本文原创,转载请标注原文出处:3000篇搜狐新闻语料数据预处理器的python实现 )
阅读全文
搜索
积分与排名
- 积分 - 446896
- 排名 - 1696
随笔分类 (270)
- Algorithm(13)
- ASP.NET(15)
- C#(20)
- Data Mining(15)
- Database(10)
- Database Cluster(13)
- Domain Ontology(2)
- Form(7)
- Hadoop(2)
- Java(4)
- JavaScript(5)
- Linux(2)
- Machine learning(16)
- NLP(40)
- PHP(1)
- project summary(15)
- Python(33)
- software Testing(4)
- SPSS(1)
- statistics(14)
- Thinking(6)
- Tools(11)
- web design(6)
- 学习笔记(15)
- 更多
随笔档案 (218)
- 2019年6月(15)
- 2019年5月(2)
- 2019年4月(1)
- 2018年12月(3)
- 2018年11月(1)
- 2018年10月(5)
- 2018年9月(5)
- 2018年8月(3)
- 2018年7月(4)
- 2017年10月(5)
- 2017年8月(4)
- 2017年7月(5)
- 2017年5月(3)
- 2017年4月(1)
- 2017年3月(1)
- 2017年1月(1)
- 2016年12月(3)
- 2016年11月(14)
- 2016年10月(13)
- 2016年9月(1)
- 2016年8月(5)
- 2016年7月(9)
- 2016年6月(3)
- 2016年4月(2)
- 2016年3月(6)
- 2016年2月(1)
- 2016年1月(1)
- 2015年11月(4)
- 2015年10月(10)
- 2015年9月(1)
- 2015年8月(5)
- 2015年7月(13)
- 2014年10月(1)
- 2014年8月(5)
- 2014年7月(4)
- 2013年6月(6)
- 2013年5月(3)
- 2013年3月(20)
- 2013年2月(1)
- 2013年1月(3)
- 2012年12月(2)
- 2012年11月(23)
- 更多
文章档案 (1)
阅读排行榜
- 1. 【NLP】十分钟快览自然语言处理学习总结(66628)
- 2. Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之ORACLE集群概念和原理(二)(50497)
- 3. Docker如何部署Python项目(42052)
- 4. 【NLP】干货!Python NLTK结合stanford NLP工具包进行文本处理(39089)
- 5. 【程序员眼中的统计学(7)】正态分布的运用:正态之美(30815)
- 6. 一步步教你轻松学K-means聚类算法(30231)
- 7. 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍(一)(28320)
- 8. 【Oracle 集群】Oracle 11G RAC教程之集群安装(七)(25639)
- 9. 数据挖掘150道笔试题(24623)
- 10. 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)(21212)
评论排行榜
- 1. 【基于WPF+OneNote+Oracle的中文图片识别系统阶段总结】之篇二:基于OneNote难点突破和批量识别(34)
- 2. 【ASP.NET】演绎GridView基本操作事件(22)
- 3. 【基于WinForm+Access局域网共享数据库的项目总结】之篇三:Access远程连接数据库和窗体打包部署(17)
- 4. 【吾悟】《易经》有感程序人生(17)
- 5. 【@伏草惟存@】7年系列博文精选(10)
- 6. PayPal高级工程总监:读完这100篇论文 就能成大数据高手(附论文下载)(10)
- 7. 【基于WinForm+Access局域网共享数据库的项目总结】之篇一:WinForm开发总体概述与技术实现(10)
- 8. 【基于WPF+OneNote+Oracle的中文图片识别系统阶段总结】之篇四:关于OneNote入库处理以及审核(9)
- 9. 【程序员眼中的统计学(7)】正态分布的运用:正态之美(8)
- 10. 【项目管理】GitHub使用操作指南(6)
最新评论
- 1. Re:【Machine Learning】决策树案例:基于python的商品购买能力预测系统
代码可否重新提供下载
- --寻找普拉多
- 2. Re:【本/硕毕业生】开题报告及论文指导思路和撰写事项的整理
总结的很到位,非常有用,感谢
- --minepy
- 3. Re:【基于WinForm+Access局域网共享数据库的项目总结】之篇一:WinForm开发总体概述与技术实现
MYHelper.这是怎么出来的,文章也看来不下10遍了,也百度过,没有找到答案,楼主能给点提示吗?
- --尘戢
- 4. Re:【NLP】Python实例:基于文本相似度对申报项目进行查重设计
有公开的代码吗?
- --ls0311
- 5. Re:Python数据预处理:机器学习、人工智能通用技术(1)
大佬们,怎么样才能加入群聊学习更多的知识,436303759这个群好像进不来
- --姜泽
- 6. Re:Docker如何部署Python项目
图裂了。。。
- --kpbiao
- 7. Re:Docker如何部署Python项目
说实话,看到的为数不多的把docker讲的如此透彻的文章之一。赞赞赞!
- --星星柯北
- 8. Re:【吾悟】《易经》有感程序人生
- 写的太好了!!!
- --民工也Coding
- 9. Re:Docker如何部署Python项目
- 支持支持,我也正在学DOCKER。。。
- --牛腩
- 10. Re:一步步教你轻松学决策树算法
- 写的非常详细,教程的结构也很合理,内容易于接受。
- --enternallove