2011年8月24日
摘要: 对一系列文章进行自动聚类可以做为基于内容的推荐引擎的基础,如果要实现文本的自动聚类,首先按照本系列5中所介绍的,对文章进行分词,然后计算得出文章的术语向量表示,即求文章中每个不同的单词以其所对应的TF*IDF,具体计算方法如5中所示。目前文本自动聚类算法中,用得最多是KMean算法,本文中就介绍KMean算法的应用。当然,KMean算法可以通过调用Mahout或WEKA这两个开源的机器学习算法库来实现,但是在这类算法中需要准备比较复杂的输入文件,预处理过程比较复杂,还有一点,我们可能在实际应用中要对KMean算法进行调整,这样自己编写KMean算法重加有助于我们对文本聚类算法的理解。我们首先定 阅读全文
posted @ 2011-08-24 16:28 程序员新鲜事 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 第一批员工吴言把自己租的房子换成了一个临街的两室两厅的单元房,里边只有简单的装修,并且没有家居和家电,虽然每月3500的租金有些贵,但是却可以同时解决吴言住宿和办公问题,吴言还是觉得挺值的。吴言首先买了个简易的地毯,铺在了原本是地砖的地上,因为这样可以防止电脑椅来回移动时产生的噪音影响邻居。然后吴言在比较大的客厅和主卧室里各摆上了四个电脑桌,这样可以方便大家的交流,同时也保证了大家都有相对隐密的个人空间,吴言觉得自己原来公司的开放式办公环境,一点私密空间都没有,感觉很不人性化,当这次自己可以做主时,在成本允许的情况下,他想尽量做到人性化。将电源线和网线都从地毯下穿过,并给每个桌子上配置了电脑, 阅读全文
posted @ 2011-08-24 12:01 程序员新鲜事 阅读(186) 评论(0) 推荐(0) 编辑