BitSpark - 博客园

2012年10月11日

摘要：文本摘要（Text Summarization）就是从原始文献中提取一个简短的文摘，文摘是全面准确地反映某一文献中心内容的简单连贯的短文。下面介绍一种利用SVD进行文本摘要的方法，其本质是提取到语料中较为“重要”的句子，主要思想均出自参考文献1和2中。一、SVD概念 SVD（Singular value decomposition）就是奇异值分解，学过线性代数的一定还对应什么奇异非奇异的字样有点印象吧。不过这个奇异值跟矩阵是奇异或非奇异的关系貌似不大。直接上概念，对于m×n阶矩阵A进行奇异值分解m×nm×n其中U为m×m阶正交矩阵，∑是m×n阶阅读全文

posted @ 2012-10-11 15:08 BitSpark 阅读(695) 评论(0) 推荐(0) 编辑

2012年7月19日

使用Mahout0.5进行中文聚类

摘要：相对于英文聚类，Mahout进行中文聚类主要注意的就是数据的编码方式和分词器的选择问题。一、数据准备这里使用复旦大学中文语料（http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15）(PS:这个文本集好像下不到了，推荐另一个语料http://ishare.iask.sina.com.cn/f/22774613.html，2805篇中文文本)我下载的是文本分类语料库（训练），里面一共包含9804篇文档。刚开始在Linux环境下折腾半天，结果总是乱码，结果发现是编码方式的问题。可以使用iconv命令来将GB2312的文件的编码方式阅读全文

posted @ 2012-07-19 17:25 BitSpark 阅读(1376) 评论(5) 推荐(2) 编辑

2012年7月12日

mahout-0.5 spectralkmeans找不到AffinityMatrixInputMapper类的错误

摘要：在Hadoop运行spectralkmeans算法时，出现错误信息如下，但用mahout0.6却可以运行。java.lang.RuntimeException: java.lang.ClassNotFoundException: org.apache.mahout.clustering.spectral.common.AffinityMatrixInputMapperat org.apache.hadoop.conf.Configuration.getClass(Configuration.java:866)at org.apache.hadoop.mapreduce.JobContext.g 阅读全文

posted @ 2012-07-12 16:35 BitSpark 阅读(363) 评论(10) 推荐(0) 编辑

公告