摘要: 记得第一次了解中文分词算法是在Google 黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”,应该分成“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”?人来判断很容易,要交给计算机来处理就麻烦了。问题的关键就是,“和尚未”里的“和尚”也是一. 阅读全文
posted @ 2013-01-11 13:56 黑暗行者 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 我不是搞搜索专业的,当时毕设做了个简单的分词算法,就放到blog上。没想还有挺多人感兴趣的,记得那天点击量忽然达到2000(当时我的日点击量也就200),很多做搜索的人找我,说思路不错。也许我这辈子再也不搞搜索了,就把这篇文章放这留个纪念吧。xiecc于2006年2月11日最近折腾毕业论文,搞得人没心情写blog了。于是觉得不如把毕业论文里的东西贴出来当blog算了。这里主要介绍了我自己的中文分词算法,我觉得它比现在开源代码比较多的中文匹配法要好多了。这里的内容没有任何背景知识啥的,毕竟论文里的背景知道我也是从网上粘贴的,呵呵!因此这篇文章的内容可能适合做搜索引擎的人。如果要了解中文分词算法在 阅读全文
posted @ 2013-01-11 12:09 黑暗行者 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 1.显示最后20行tail-n20文件名如tail-n20log.txt2.显示中间20,从1000开始catlog.txt|tail-n+1000|head-n20注:tail-n+行号意思为从第多少行开始,如果是tail-n-行==tail-n行意思为文件末尾多少行的数据head-n20前20行的数据3.也可以用sed命令如sed-n'100,120p'log.txt100到120行的数据。 阅读全文
posted @ 2013-01-11 00:06 黑暗行者 阅读(294) 评论(0) 推荐(0) 编辑