2013年11月22日
摘要: getopt()用来解析命令行参数getopt(int argc,char **argv,const char *shotopts)第一个参数为命令参数的个数;第二个参数存命令参数;第三个参数为所有可能的参数字符串optstring,仅支持短参数参数ab:c::d::代表。/getopt -a -b host -chello -d world(world不是参数值,因为-d后面有空格)getopt()成功后返回第一个选项a,并设置全局变量optarg:指向当前参数的指针,如果调用函数的人为某个参数赋值,则它指向这个值(eg:b的值host)optind:再次调用getopt()时的下一个arg 阅读全文
posted @ 2013-11-22 22:54 瞌睡的美人鱼 阅读(579) 评论(0) 推荐(0) 编辑
摘要: IK正向迭代最细粒度切分算法流程一、IK分词初始化初始化最主要的工作就是读入词典,并将这些词放入内存字典树1.main2012.dic(关键词)2.quantifier.dic(量词)3.stopword.dic(停用词)4.ext.dic(扩展词,可选) http://blog.csdn.net/iamaboyy/article/details/7569977二、匹配1.主流程主要的就是ik.next()方法:1)读入待匹配的文本2)初始化文本指针,指向文本中的第一个字符3)遍历分词器,进行分词处理,这里是最核心的流程之一,将待匹配文本生成分词候选集。——子分词器4)处理完一个字符之后,文本 阅读全文
posted @ 2013-11-22 17:12 瞌睡的美人鱼 阅读(1921) 评论(0) 推荐(0) 编辑
摘要: 在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口。因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类。所以以前在schema.xml文件中加入的内容: ...... ...... 而现在在schema.xml文件中加入的内容为: 这也是之前配置会出错的原因,除非自己实现了IKTokenizerFacto... 阅读全文
posted @ 2013-11-22 16:39 瞌睡的美人鱼 阅读(396) 评论(0) 推荐(0) 编辑