Alex He

...永远保持希望与激情...约会未来更强大的自己...

 
上一页 1 ··· 5 6 7 8 9 10 下一页

2011年9月8日

说说浮躁问题

摘要: 朋友聊天,说到淡定浮躁问题。竟发现很多朋友以为我不浮躁,最起码看起来还是挺理性挺淡定的。其实真的不是那么回事,貌似有几个过程在这两种间转来转去。 大 学读书时感觉还挺淡定的,那时想法很少,认为只要好好上课学好专业拿拿奖学金就可以了。到快毕业的时候去实习工作(虽然已经考上研了)明显感觉自己很浮躁 了,那个时候恨不得一个月的事情一天就做好:希望外语能很快提高(最后一次CET6了);希望很快学会使用UNIX;希望对数据库有更深入的认识;希望毕 业设计能很快的实现;反正就是想法特别多。浮躁过后迎来的是另一种学习环境,并由了新的学习方向,不知道为什么,人有开始归于淡定了,也 可能是刚开始的新鲜劲,发现. 阅读全文

posted @ 2011-09-08 23:23 Alex木头 阅读(297) 评论(0) 推荐(0) 编辑

2011年8月2日

《语义网基础教程》笔记

摘要: 一章 语义网概述 一:WWW或者说是传统SE得到问题 1. 网络信息剧增; 2. 搜索结果汇合太多相关和非相关信息; 3. 检索结果非常依赖于搜索词; 4. 检索结果的呈现,只能给出网页;如果信息存在于多个网页就需要用户自行组织了; 二:基于人工智能和计算语言学的技术PK语义网运动 三:语义网技术 1. 显示的元数据:XML和RDF(Resource Description Framework) ... 阅读全文

posted @ 2011-08-02 14:44 Alex木头 阅读(467) 评论(0) 推荐(0) 编辑

2011年7月7日

谁是道德沦丧者?(关于一些怪异想象的思考)

摘要: 故事是这样的:在某个残酷的战场上,有位战士在队伍撤退的时候没有去营救受伤的战友,结果他活下来了,而其他营救了受伤战友的战士却倒在了战场上。于是乎,以后的战场上,每位战士不去考虑其他伤员死活好像已经约定尘俗了,因此,这样的潜规则就平静的度过了一个又一个不平静的日日夜夜。突然,一位新兵入伍,当他看到自己亲爱的同胞,亲爱的战友,奄奄一息的躺在炮火之下的时候,本能的,他冲上去营救了战友,不知是侥幸还是勇猛... 阅读全文

posted @ 2011-07-07 17:02 Alex木头 阅读(294) 评论(0) 推荐(0) 编辑

libsvm的初体验

摘要: 就要做有关SVM的报告了!由于SVM里面的有关二次优化的不是那么容易计算得到的,最起码凭借我现在的理论知识和编程能力是不能达到!幸好,现在又不少的SVM工具,他可以帮助你得到支持向量(SV),甚至可以帮助你得到预测结果,归一化数据等等。其中SVM-light,LibSVM是比较常用的!SVM-light我们实验室有这方面的代码,而我自己就学习了下怎么使用LIBSVM(来自台湾大学林智仁)。实验步骤... 阅读全文

posted @ 2011-07-07 17:02 Alex木头 阅读(3413) 评论(0) 推荐(0) 编辑

2011年6月30日

Lucene学习之Tika提取文本信息

摘要: 目前较新版的Tika(我用的是0.9)都是用Maven构建的。所以学习使用Tika最好的就是直接用Maven了,但是以我的经验,要想完整的了解Maven,并且能够编译好项目,把该依赖的包什么的全部导入,估计要花天把时间。可能有些人Maven都没听过(两个月前的我就是),那几更要花点精力了。 个人建议对Maven不熟悉的还是直接引用jar包。 首先搭建环境: 方式一:通过Maven,使用Eclips... 阅读全文

posted @ 2011-06-30 13:04 Alex木头 阅读(3291) 评论(2) 推荐(2) 编辑

2011年6月24日

测试Live发博客

摘要: 去网站写东西太麻烦了,我以前基本上都是先写到word文档中,然后再复制过去的。复制的时候也懒得考虑格式、标签、颜色、代码等东西了。所以弄的特别难看,本来内容就不咋地了,外观又不行,就更没人看了!今天学习使用Live发发博客。 这里还可以设置字体,颜色,感觉应该是很方便的哈!另外还可以用插件添加代码。没错,好记性不如烂博客!看看能成功不!呵呵… 阅读全文

posted @ 2011-06-24 18:00 Alex木头 阅读(157) 评论(0) 推荐(0) 编辑

2011年6月2日

MapReduce/GFS/BigTable三大技术资料

摘要: 首先是在孟岩博客中发现以下内容:Google的三大核心技术MapReduce、GFS和BigTable的论文都已经被翻译成高质量的中文;三篇论文的链接地址如下:MapReduce:http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspxGFS:http://blog.csdn.net/xuleicsu/archive/2005/11/10/526386.aspxBigTale:http://blog.csdn.net/accesine960/archive/2006/02/09/595628.aspx然后在百度空间发现了一些 阅读全文

posted @ 2011-06-02 17:16 Alex木头 阅读(3217) 评论(0) 推荐(1) 编辑

2011年6月1日

国内较好的职位垂直搜索引擎介绍

摘要: 由于通用搜索引擎越做越细,对于用户意图的挖掘也越也越完善,这让很多垂直搜索引擎纷纷关闭!曾作为创业上式先锋的行业真的是前途不明了啊!现汇总国内目前还比较常用的职位(求职)搜索引擎,有些还是很不多的,另外,也出现了一些新的求职模式,比如:实名制;SNS+求职网站等等。1:职友集职位搜索引擎,专注于为用户提供便捷、准确、精准的工作职位信息搜索服务。目前发展比较迅速,地域、行业、职位等涵盖全面,分类细致。用户可以很方便地通过站内搜索找到适合自己的职位,是查找职位不可或缺的网站。 http://www.jobui.com/http://www.tiaona.com/2:职通车搜索职通车工作搜索对各大招 阅读全文

posted @ 2011-06-01 18:11 Alex木头 阅读(1595) 评论(0) 推荐(0) 编辑

2011年5月10日

MMSEG介绍及基于分类的中文分词算法遐想

摘要: MMSEG介绍及基于分类的中文分词算法遐想 最近一直在弄中文分词,学习了不少分词算法,当然其中少不了中科院的分词工具。但我测试后发现,基于多层HMM的ICTCLAS虽然准确率虽很好,但效率方面还是没什么优势。可是效率问题在大规模数据应用中确实是很重要的。这里要介绍的,也是如今被广泛应用的,也是教材中介绍较多的方法,那就是基于最大匹配的方法,这里面又可分为前向最大匹配,后向最大匹配和混合式的。但不管怎么样,它就是按照待分词字符串某个方向上取尽可能长的词作为一个词块。这里,我们都看出来了,这种算法要用到词典,并且很重要。(网上一个分析百度的分词算法的文章的结论是百度采取前向最大匹配,并且百度拥有强 阅读全文

posted @ 2011-05-10 18:19 Alex木头 阅读(4134) 评论(0) 推荐(0) 编辑

2010年12月31日

[算法集锦]编辑距离分析与实现

摘要: 编辑距离的分析与实现 做文本分析的时候,我们常常需要计算两篇文本的相关性(相关性除了可以使用相似度还可以使用距离-当然是应该反着来算的),如果你不知道把文本转换为一个向量(如果你知道这个,那遭了,因为那样你就可能认为我这里的很rubbish了),那你可能会考虑我们这里介绍的最朴素的方法-计算字符串间编辑距离的方法。 先给出我遇到的问题(也即定义编辑距离):设A 和B 是两个字符串。对于字符串可以执行如下操作:(1) 删除一个字符;(2)插入一个字符;(3)将一个字符替换成另外一个字符。例如将kitten一字转成sitting:(1). sitten (k→s)(2). sittin (e→i) 阅读全文

posted @ 2010-12-31 17:28 Alex木头 阅读(1685) 评论(0) 推荐(1) 编辑

上一页 1 ··· 5 6 7 8 9 10 下一页

导航