eaglet

本博专注于基于微软技术的搜索相关技术
随笔 - 189, 文章 - 0, 评论 - 3725, 阅读 - 147万
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

Hubbledotnet V0.8.3.6 版本性能测试报告

Posted on   eaglet  阅读(2079)  评论(19编辑  收藏  举报

测试数据

论文标题和摘要信息,数据行数 400 万行,数据大小2.6GB

 

测试环境

Intel Core2 Duo T7100 1.8GHz

2.0 GB of RAM

硬盘转速为 5400 转

普通笔记本电脑

Hubbledotnet 0.8.3.6 版本 + 盘古分词 1.2 版本

 

表结构

image

 

索引参数

image

这个参数设置索引时的并发线程数

Step 为 5000。这个参数指明每次批量索引的行数。

 

 

索引速度

 

 

image

 

400万数据,索引用时 8237秒,即每小时索引 174 万行。

 

 

 

我忘记将盘古分词改成最新版本了,如果用最新的2.0.1.0 版本,索引速度应该还可以提高30%左右。

 

索引文件大小

image

 

两个字段的索引文件大小总和为 624M

 

内存占用

image

HubbleTask 服务在400万数据时占用内存为 180M 左右,这其中有50M左右为盘古分词占用,20M左右为.net 自身占用,索引实际占用内存为110M左右。

查询速度

查询单个字

首次查询

image

用时320ms

第二次查询

image

用时2.23ms

首次翻页

image

用时295ms

查询多个字

采用 Match 方式首次查询

 image

 

 

 

 

 

 

用时342ms

采用 Contains 方式首次查询

image

用时132ms

Contains 和 Match 的区别是Contains 对输入的单词分量按与方式匹配,Match是按或方式匹配。Contains 比 Match 更精确和快速。

编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· .NET周刊【3月第1期 2025-03-02】
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· [AI/GPT/综述] AI Agent的设计模式综述
点击右上角即可分享
微信分享提示