2013 年 1月 11 日随笔档案 - 黑暗行者

2013年1月11日

摘要：记得第一次了解中文分词算法是在Google 黑板报上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进行研究，期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／的”？人来判断很容易，要交给计算机来处理就麻烦了。问题的关键就是，“和尚未”里的“和尚”也是一. 阅读全文

posted @ 2013-01-11 13:56 黑暗行者阅读(413) 评论(0) 推荐(0) 编辑

分词算法的讨论

摘要：我不是搞搜索专业的，当时毕设做了个简单的分词算法，就放到blog上。没想还有挺多人感兴趣的，记得那天点击量忽然达到2000（当时我的日点击量也就200），很多做搜索的人找我，说思路不错。也许我这辈子再也不搞搜索了，就把这篇文章放这留个纪念吧。xiecc于2006年2月11日最近折腾毕业论文，搞得人没心情写blog了。于是觉得不如把毕业论文里的东西贴出来当blog算了。这里主要介绍了我自己的中文分词算法，我觉得它比现在开源代码比较多的中文匹配法要好多了。这里的内容没有任何背景知识啥的，毕竟论文里的背景知道我也是从网上粘贴的，呵呵！因此这篇文章的内容可能适合做搜索引擎的人。如果要了解中文分词算法在阅读全文

posted @ 2013-01-11 12:09 黑暗行者阅读(253) 评论(0) 推荐(0) 编辑

Linux - Centos 文件查看如何显示最后几行，某几行

摘要： 1.显示最后20行tail-n20文件名如tail-n20log.txt2.显示中间20，从1000开始catlog.txt|tail-n+1000|head-n20注：tail-n+行号意思为从第多少行开始，如果是tail-n-行==tail-n行意思为文件末尾多少行的数据head-n20前20行的数据3.也可以用sed命令如sed-n'100,120p'log.txt100到120行的数据。阅读全文

posted @ 2013-01-11 00:06 黑暗行者阅读(294) 评论(0) 推荐(0) 编辑

因我而不同

用伟大的心做渺小的事