摘要: 1、6类数据的导入和处理2、层次聚类和kmeans 的具体理解,包括 (1)如何降维,仅仅靠tf-idf吗,除此以外还有没有别的方法? (2)对层次聚类中每种参数和变量的设置,探讨其对结果的影响,选出最优的参数设置,并写成报告;对其绘图的思考。 (3)对kmeans方法的参数和变量的设置,如何将相关的term画到一起。3、LDA方法的研究。4、本体距离的计算公式。4、最终报告的撰写。 阅读全文
posted @ 2012-07-20 13:31 todoit 阅读(163) 评论(0) 推荐(0) 编辑
摘要: ##连接数据库,将数据库中的文件读取出来#加载包library(RMySQL) #建立连接conn <- dbConnect(dbDriver("MySQL"), dbname = "eswp", user="root", password="root")#读取 表2008yearnewtext = dbReadTable(conn, "2008yearnew")[100:102,2:2]#只读取mesh词的那一列,通过前面的第一个下标修改读取的行数,读取20行#加载tm包library( 阅读全文
posted @ 2012-07-20 13:22 todoit 阅读(1198) 评论(0) 推荐(0) 编辑
摘要: "p" 绘散点图"l" 绘实线"b" 所有点被实线连接"o" 实线通过的所有点"h" 绘出点到x轴的竖线"s" 绘出阶梯形曲线"S" 同上"n" 不绘任何点或者曲线 阅读全文
posted @ 2012-07-20 10:52 todoit 阅读(1740) 评论(0) 推荐(0) 编辑