eaglet

本博专注于基于微软技术的搜索相关技术
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

KTDictSeg V1.4.01 新增功能说明及下载地址

Posted on 2008-10-10 07:56  eaglet  阅读(6150)  评论(66编辑  收藏  举报

 KTDictSeg V1.4.01 新增功能说明及下载地址

KTDictSeg 1.4.01 版本经过一段时间的紧张开发,今天正式发布。感谢这段时间一直关心这个项目的朋友们。希望我的工作能给大家带来快乐。  

 

1、 增加对Asp.net的支持

由于Asp.net 应用的当前路径并不指向web root 或 web root/bin , 1.4以前版本依靠当前工作路径来读取配置文件的方式无法支持Asp.net应用。1.4版本修改了这个错误。1.4版本目前已经可以很好的支持ASP.NET应用。

2、 增加多元分词

参见  KTDictSeg 1.4 版本功能介绍 - 多元分词 

3、 增加对相对路径的支持(winform 和 asp.net)

<?xml version="1.0" encoding="utf-8"?>
<KTDictSeg>
  
<!--未登录词阈值,当统计超过这个值时,自动将未登录词加入到字典中-->
  
<Item Name="UnknownWordsThreshold" Value="100" />
  
<!--自动插入超过统计阈值的未登录词-->
  
<Item Name="AutoInsertUnknownWords" Value="False" />
  
<!--优先判断词频,如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。如 中央酒店的词频比中央和酒店的词频都要低,则忽略中央酒店。-->
  
<Item Name="FreqFirst" Value="True" />
  
<!--自动统计姓名前后缀,自动统计未登录词,自动统计词频-->
  
<Item Name="AutoStudy" Value="True" />
  
<!--间隔多少秒自动保存最新的字典和统计信息,AutoStudy = true时有效-->
  
<Item Name="AutoSaveInterval" Value="86400" />
  
<!--字典文件所在路径-->
  
<Item Name="DictPath" Value="Data\" />
  
<!--日志文件名-->
  
<Item Name="LogFileName" Value="KTDictSeg.log" />
  
<!--是否匹配汉语人名-->
  
<Item Name="MatchName" Value="True" />
  
<!--是否过滤停用词-->
  
<Item Name="FilterStopWords" Value="True" />
  
<!--是否启用多元分词-->
  
<Item Name="MultiSelect" Value="True" />
  
<!--冗余度-->
  
<Item Name="Redundancy" Value="1" />
</KTDictSeg>

 

 见上图 KTDictSeg.xml 中的DictPath


4、 字典工具增加根据词性和单词长度查找功能。

 

 

 

 

5、 字典工具增加单词导出功能,用于构件停用词表。

 

 在左边列表框点右键选导出,就可以到处列表框中查询出来的词。

6、 增加ASP.NET 的例子

配置要点:

1. 将 KTDictSeg.xml 拷贝到Bin目录下。

2. 修改配置文件中字典的路径。

3. 运行 release\Demo.KTDictSegAnalyzer.exe,点菜单中“批量插入”,导入 news.xml,

news.xml 可到项目首页下载。news.xml必须拷贝到release目录下。

 


 

7、增加词性,权重等信息的输出

必须调用 List<T_WordInfo> SegmentToWordInfos(String str) 这个函数分词

在 T_WordInfo 这个结构的Tag 字段中输出 词性,权重等信息。


项目首页

我做了一个简单的项目首页,下载地址也在这个首页里面,大家可以访问

KTDictSeg 项目首页 

KTDictSeg 1.4 Beta 漏发布的SingleWords.txt文件