eaglet

本博专注于基于微软技术的搜索相关技术

随笔 - 189, 文章 - 0, 评论 - 3725, 阅读 - 147万

:: :: :: ::

::

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新评论

1. Re:HubbleDotNet+Mongodb 构建高性能搜索引擎--概述
上倒排索引？上矢量搜索？上RoaringBitmap？
--SoarNo1
2. Re:HubbleDotNet 的注册码生成器
@海上陆林我主页有绿色版不用安装的...
--lichao8872
3. Re:HubbleDotNet 的注册码生成器
@lichao8872 方便分享一下吗，博主给的地址已经无法下载了，谢谢...
--海上陆林
4. Re:HubbleDotNet 的注册码生成器
@木木蛙 @菲菲菲菲常美丽的巨兔我有...
--lichao8872
5. Re:HubbleDotNet 的注册码生成器
@亿典通柄棋去我主页下载，免安装的...
--lichao8872
6. Re:HubbleDotNet 的注册码生成器
@lichao8872 你好，安装包可以提供一个吗...
--亿典通柄棋
7. Re:HubbleDotNet 的注册码生成器
@菲菲菲菲常美丽的巨兔我有...
--lichao8872
8. Re:文件是否真的写入了磁盘？
大佬今何在
--会长
9. Re:HubbleDotNet 的注册码生成器
找不到安装包大神们谁有
--菲菲菲菲常美丽的巨兔
10. Re:HubbleDotNet 的注册码生成器
找了很多地方，就是无法找到安装包，请问有安装包的朋友吗
--木木蛙

修改 highlighter.net-1.4.0 一处Bug

Posted on 2008-05-06 19:07 eaglet 阅读(2104) 评论(4) 编辑收藏举报

最近在做KTDictSeg 的 1.3 版本，在这个版本中做了一个用Lucene.net 搜索新闻的例子，其中生成关键词摘要用了
highlighter.net-1.4.0版本，发现中文关键词摘要生成结果总是不对，但英文的结果是对的。没办法，只得把highlighter.net
的源码拿出来调了一遍，最终发现问题在TokenGroup类的IsDistinct函数上。该函数源码如下

internal virtual bool IsDistinct(Token token)

{

return token.StartOffset() > endOffset;

}

正确的代码应该是

internal virtual bool IsDistinct(Token token)

{

return token.StartOffset() >= endOffset;

}

之所以在英文下是对的，是因为英文单词之间通常都是通过空格来分割，所以下一个单词的StartOffset一般都比前一个单词的 endOffset要大。
而中文的情况就不同了，单词间没有空格，导致下一个单词的StartOffset等于前一个单词的endOffset。结果自然就不对了。
后来想确认一下最新的 2.0 版本是否更改了这个Bug。结果始终没有找到源码，无奈之下只能将 2.0版本的动态库反编译看了一下，结果发现
该处Bug在2.0版本中已经被更正。要提醒的一点是如果用 highlighter.net2.0版本，必须要使用 Lucene的2.0以上版本。

哪位兄弟如果有highlighter.net2.0版本的源码，能否方便分享一下，先谢过了！

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· .NET周刊【3月第1期 2025-03-02】
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· [AI/GPT/综述] AI Agent的设计模式综述