随笔分类 - project summary
摘要:国家973物联网首席科学家,中科院上海微系统与信息技术研究所副所长,无锡物联网产业研究院院长刘海涛教授讲授的5G时代的物联网发展趋势与产业变革意义深刻。作者根据天府大讲堂听讲内容加工整理所得,旨在进行学术交流使用,严禁商业炒作和不法行为。(本文原创,转载必须注明出处.)
阅读全文
摘要:【伏草惟存,七年博客精选系列文章】 >> 福利:33套AI技术视频免费领取 >> 自然语言处理和机器学习QQ群:436303759 >> 知识图谱技术QQ群:563339601 >> 图像处理,视觉检测技术QQ群:361505516 一、【Python开发系列文章】 1 Python五篇慢慢弹:快速
阅读全文
摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核,传统的方式人力物力比较大,且伴随季度性的繁重工作,效率不高。基于此,单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献,终未得到有价值的参考资料,这个也是自然。首先类似知网,paperpass这样的商业公司其毕业申报专利并进行保密,其他科研单位因发展需要也不会开源。笔者就结合NLP相关知识进行设计一款自主的查重系统,首先采用自然语言处理方法主要提出两个模型:科技项目查重的训练模型和科技项目查重的测试模型。其中训练模型主要对数据的清洗预处理及其规约化处理,测试系统也是主查重系统,对其查重原理和性能进行设计实现。最后将其封装成包,PHP或者Java等语言调用即可。(本文原创编著,转载注明出处:Python实例:申报项目查重系统设计与实现)
阅读全文
摘要:Java中调用HanLP配置 HanLP自然语言处理包开源官方文档 了解HanLP的全部 自然语言处理HanLP 开源自由的汉语言处理包主页 GitHub源码 基于hanLP的中文分词详解-MapReduce实现&自定义词典文件 hanlp中文分词器解读 HanLP下载中心 Solr集成HanLP中
阅读全文
摘要:摘要:GitHub的是版本控制和协作代码托管平台,它可以让你和其他人的项目从任何地方合作。相对于CVS和SVN的联网限制和传速慢有明显的优势。因此,越来越受企业和个人的青睐。github上进行项目管理也是趋势。基于此,笔者十一小假期,花了1天时间学习总结得以此文,旨在节约读者时间,快速掌握。在此,特别感谢廖雪峰官网教程,本文基本其于教程又有所不同,内容进行取舍,外加梳理成文,最后参考资料建议大家阅读。本文布局如下:一是对GIt整体介绍,究其原委;二是Git版本常用控制操作;三是Git与GitHub远程仓库操作;四是搭建私有服务器;五是官网资料引用。(本文原创编著,转载注明出处:GitHub使用操作指南)
阅读全文
摘要:阅读前瞻:本文源于对javaweb相关技术和资料汇总,涉及大量javaweb基础技术诸如:Servlet运行原理、Get/Post请求的区别、jsp的基本原理和运行框架、jsp的9大隐含对象的使用、MVC开发模式的使用、构建封装自己dao代码库、以及基于MVC的增删改查操作等;小结最后还有面向接口编程的多数据源配置与存储,以及工厂模式的使用。除此之外,后续文章会对cookie、session、JavaBean、监听、权限管理、文件上传与下载、分页等诸多技术汇总。本文旨在java-web多技术贯穿于单项目中,逐渐深入的过程,使得大家既学习了java技术路线,也知道其怎么用。最后会附上源码,最后一节重点对所有实现技术小结与汇总,此过程会使用作者项目技术理解、网络资源资料、学习视频和文档截图文件等为参考,力求简单通俗易学。最后,作者文章布局采用:1、实验准备;2、需求分析;3、模块化实现;4、实验优化;5、技术梳理的写作思路。(本文原创,转载标明出处:基于JAVA-MVC技术的顾客管理项目案例总结)
阅读全文
摘要:摘要:本文基于PayPal高级工程总监Anil Madan写的大数据文章,其中涵盖100篇大数据的论文,涵盖大数据技术栈(数据存储层、键值存储、面向列的存储、流式、交互式、实时系统、工具、库等),全部读懂你将会是大数据的顶级高手。作者通过引用Anil Madan原文和CSDN的译文为基础。进行中英对照整理所得。旨在技术传播,分享更多技术爱好者。为尊重原文,本人将原文放置最醒目之处:英文:100 open source Big Data architecture papers for data professionals.中文:PayPal高级工程总监:读完这100篇论文 就能成大数据高手.(本文引用整编所得,转载说明出处:读完这100篇论文 就能成大数据高手.)
阅读全文
摘要:论文写作对于所有学术型硕士/博士研究生、以及学术研究学者必修课,第一篇论文相信是大多数人的痛,基于此王博士将其多年写作总结在团队小范围会议进行阐述,笔者根据个人比较进行总结梳理。以下是王博士对于多年来论文总结,感谢其无私的分享。其针对刚入门写学术会议,学术期刊等学术论文进行规范指导。论文注重逻辑性,所以整篇论文逻辑紧密非常重要。( 本文原创,转载注明出处:暨王博士关于论文写作指导总结 )
阅读全文
摘要:摘要:自然语言处理或者是文本挖掘以及数据挖掘,近来一直是研究的热点。很多人相想数据挖掘,或者自然语言处理,就有一种莫名的距离感。其实,走进去你会发现它的美,它在现实生活中解决难题的应用之美,跟它相结合的数学之美,还有它与统计学的自然融合。语言只是一种实现工具,真正难度的是模型的理解和对模型的构建。本文结合自然语言处理的基本方法,完成对2002--2010年17套GET真题的核心单词抽取。麻雀虽小,也算五脏俱全,包含整个数据过程,比较简单。中等开发的程序员都可以实现,其中包括数据清洗,停用词处理,分词,词频统计,排序等常用方法。(本文原创,分享供于学习,转载标明出处:【项目总结】自然语言处理在现实生活中运用)
阅读全文
摘要:当前数据挖掘技术使用最为广泛的莫过于文本挖掘领域,包括领域本体构建、短文本实体抽取以及代码的语义级构件方法研究。常用的数据挖掘功能包括分类、聚类、预测和关联四大模型。本文针对四大模型之一的分类进行讨论。分类算法包括回归、决策树、支持向量机、贝叶斯等,显然,不少涉及机器学习的知识(随后会写些机器学习专题)。本文重点介绍贝叶斯分类,涉及朴素贝叶斯模型、二项独立模型、多项模型、混合模型等知识。在本人研究贝叶斯分类过程中,发现很多博客重复现象严重,并且在构建模型过程中存在大量的问题。包括博客园中最受欢迎的几篇,整个模型构造就不符合理论。索性自己重新查阅外文文献,进而得到很大帮助。本文针对几种模型,采用算法概述、算法公式解析、公式推理、优缺点比较等进行总结。(本文原创,转载注明出处。)
阅读全文
摘要:题记:
近来关于数据挖掘学习过程中,学习到朴素贝叶斯运算ROC曲线。也是本节实验课题,roc曲线的计算原理以及如果统计TP、FP、TN、FN、TPR、FPR、ROC面积等等。往往运用ROC面积评估模型准确率,一般认为越接近0.5,模型准确率越低,最好状态接近1,完全正确的模型面积为1.下面进行展开介绍:
阅读全文
摘要:【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bug百出,而且只是单处理。后来经过一番摸索逐个突破,批处理完成。然后进行界面设计,这些零碎工作完成后,便是入库处理。由于OneNote生成的xml文件封装好的,即不可视的。便将其代码处理生成txt文件,再进行Oracle入库处理。入库前需要文件内容审核,并且在WPF开发中数据绑定和分页中做了独特处理。现在经过半个月的工作,本项目做个阶段总结。一则知识总结便于二次开发,尽量保持程序流畅性,核心
阅读全文
摘要:【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bug百出,而且只是单处理。后来经过一番摸索逐个突破,批处理完成。然后进行界面设计,这些零碎工作完成后,便是入库处理。由于OneNote生成的xml文件封装好的,即不可视的。便将其代码处理生成txt文件,再进行Oracle入库处理。入库前需要文件内容审核,并且在WPF开发中数据绑定和分页中做了独特处理。现在经过半个月的工作,本项目做个阶段总结。一则知识总结便于二次开发,尽量保持程序流畅性,核心知识做以梳理;另外,相关WPF和OneNote常用技术共享,便于部分园友所需。本人技术有限,欢迎交流。项目还未结束,暂作阶段文章发布,随后相继发布。
阅读全文
摘要:【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bug百出,而且只是单处理。后来经过一番摸索逐个突破,批处理完成。然后进行界面设计,这些零碎工作完成后,便是入库处理。由于OneNote生成的xml文件封装好的,即不可视的。便将其代码处理生成txt文件,再进行Oracle入库处理。入库前需要文件内容审核,并且在WPF开发中数据绑定和分页中做了独特处理。现在经过半个月的工作,本项目做个阶段总结。一则知识总结便于二次开发,尽量保持程序流畅性,核心知识做以梳理;另外,相关WPF和OneNote常用技术共享,便于部分园友所需。本人技术有限,欢迎交流。项目还未结束,暂作阶段文章发布,随后相继发布。
阅读全文
摘要:【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bug百出,而且只是单处理。后来经过一番摸索逐个突破,批处理完成。然后进行界面设计,这些零碎工作完成后,便是入库处理。由于OneNote生成的xml文件封装好的,即不可视的。便将其代码处理生成txt文件,再进行Oracle入库处理。入库前需要文件内容审核,并且在WPF开发中数据绑定和分页中做了独特处理。现在经过半个月的工作,本项目做个阶段总结。一则知识总结便于二次开发,尽量保持程序流畅性,核心知识做以梳理;另外,相关WPF和OneNote常用技术共享,便于部分园友所需。本人技术有限,欢迎交流。项目还未结束,暂作阶段文章发布,随后相继发布。
阅读全文