摘要: 1 JSP简介 1.1 JSP定义 JSP,全名Java Server Pages,其根本是一个简化的Servlet设计,它实现了在Java当中使用HTML标签。 JSP是一种动态网页技术标准,也是Java EE的标准。 JAP与Servlet一样,是在服务器端执行的。 1.2 常见动态网站开发技术 阅读全文
posted @ 2018-02-14 21:36 祁俊辉 阅读(286) 评论(0) 推荐(0) 编辑
摘要: Web应用程序 什么是Web应用程序?(JavaWeb属于JavaEE) 软件开发领域的三大方向 静态网页和动态网页 注意:静态web与动态web最本质的区别就是,静态web无法进行数据库操作,而动态web最大特点就是具备交互性(JDBC)。 另外,动态web的开发属于B/S结构。 C/S模式(Cl 阅读全文
posted @ 2018-02-14 21:17 祁俊辉 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 所需软件 JDK,Tomcat,eclipse或myeclipse。 Tomcat服务器的安装与配置 tomcat目录结构 注意,Tomcat也可以直接复制使用,但要设置jdk的路径及注册。 WEB-INF目录详解(视频讲解) Myeclipse配置(视频讲解)(不推荐使用) 配置JDK:Windo 阅读全文
posted @ 2018-02-14 21:15 祁俊辉 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 1 余弦定理与新闻分类 余弦定理应用最广泛的应该就是新闻分类了,前段时间看算法觉得挺简单的没去实现,近几日无事便写了一个余弦定理程序,发现并非想象那般,有很多有意思的发现。 先说一下余弦定理判断相似度的步骤: 通常在第三步骤特征向量的长度是所有词的总和(大概是64000),但我觉得向量太长了有那么多 阅读全文
posted @ 2018-02-14 21:00 祁俊辉 阅读(411) 评论(0) 推荐(0) 编辑
摘要: @祁俊辉,2017年6月22日测试。 1 说明 本程序以关于SimHash算法的实现及测试V4.0为基础,利用JSP添加JavaBean接口,改为网页版; 因为在网页版比较相似度时,生成txt文档会耗费一定的时间,而且在Tomcat发布后路径不方便控制,所以取消txt文档的输入输出,全程以字符串形式 阅读全文
posted @ 2018-02-14 20:53 祁俊辉 阅读(3668) 评论(0) 推荐(0) 编辑
摘要: @祁俊辉,2017年6月15日测试。 1 说明 本程序衔接关于SimHash算法的实现及测试V3.0; 改进1:增加TF-IDF算法,用于计算词权重(本地新增100篇txt文本库); 改进2:各个程序衔接,详情见流程图。 2 程序 目前项目中存在4个类,分别是分词“FenCi”,计算某个词在多少个文 阅读全文
posted @ 2018-02-14 20:49 祁俊辉 阅读(2202) 评论(0) 推荐(0) 编辑
摘要: @祁俊辉,2017年6月9日测试。 1 说明 本文章衔接关于SimHash算法的实现及测试V2.0; 本文章与利用IK Analyzer分词(txt输入输出)相结合; 本程序先使用利用IK Analyzer分词(txt输入输出)分词程序对文件分词后输出分词后的文件,然后使用本程序读取该文件,再进行S 阅读全文
posted @ 2018-02-14 20:40 祁俊辉 阅读(707) 评论(0) 推荐(0) 编辑
摘要: @祁俊辉,2017年6月4日测试。 1 说明 本文章衔接关于SimHash算法的实现及测试V1.0; 将Hash函数更新为MD5_Hash函数(二进制为128位); 个人感觉用海明距离并不能只管说明两篇文章(字符串)相似,故添加相似度,但对于相似度的计算只是利用最简单的,有很多不妥之处。 2 MD5 阅读全文
posted @ 2018-02-14 20:14 祁俊辉 阅读(1523) 评论(0) 推荐(0) 编辑
摘要: @祁俊辉,2017年5月21日测试。 1 说明 本程序是简化版的SimHash算法(分词暂为手动分词,每个词的权重都设为1); 本程序是基于《数学之美 》第二版第16章所介绍的原理展开; 本篇文章将计算多个字符串的SimHash值,并将对其分析; 本篇文章暂不介绍SimHash算法的原理,因为网上的 阅读全文
posted @ 2018-02-14 20:01 祁俊辉 阅读(757) 评论(0) 推荐(0) 编辑