03 2013 档案

摘要:果然又是一个悲剧的面试,不是上次笔试的悲剧,这次又以面试的悲剧结束。设计的主要问题是毕业设计的搜索引擎的设计,设计到问题为什么爬去和索引效率为什么会这么低?这个问题还真是不太清楚,因为这个问题本来就是利用Nutch的框架,我们当中只是实现了其中的一些插件,然而我们插件会输出一些东西。我感觉最耽误时间的就是那个贝叶斯分类器了,但是当问到贝叶斯分类器的时候,就彻底的完了,当时没有意识到我实际上说的是一个KNN分类器。 描述一下分类器的具体实现,我当时描述的是将文本和训练样本都进行分词,然后计算每个文本和样本的余弦夹角,然后选择距离最近的那一个类别作为我们标记的类别。有没有什么问题?当时没感觉... 阅读全文
posted @ 2013-03-14 10:49 weixliu 阅读(2901) 评论(5) 推荐(1)
摘要:为什么会这么说呢?因为这几天碰到一个算法,叫MCMC,这是一个相当复杂的东西,本以为我能够理解它,但是看了一天却发现自己不会的数学名词太多了,最终就败下阵来,投降了。因为最近被组合数学也搞的焦头烂额了,高中的时候关于排列组合就不是很敏感,感觉这更像是智力题,像我这种笨脑瓜只有靠努力的记忆题目类型了。 组合数学的最主要内容是对离散对象的技术,首先是经常用到的两个基本准则,加法法则和乘法法则。这个还是挺好理解的。 一一对应这点很重要,比如某种计数比较困难,可以考虑将问题转换为一个与其一一对应的问题,然后进行计数。 排列组合的模型。关于排列组合的问题除了一一对应是个难点之外,还有解题中分类... 阅读全文
posted @ 2013-03-08 17:54 weixliu 阅读(789) 评论(0) 推荐(0)