上一页 1 2 3 4 5 6 ··· 50 下一页

2024年3月27日

倒排索引

摘要: 倒排索引主要由两部分组成: 1)单词词典,即每个文档进行分词后的词项在去重后组成的集合; 2)倒排文件 是倒排列表持久化存储的结果,通常保存在磁盘等存储设备上。倒排列表记录了词项所在文档的文档列表、单词频率等信息。 我们以4个文档为例: 文档编号 文档内容 1 作为一款领先的聊天助手,ChatGPT 阅读全文

posted @ 2024-03-27 10:54 花阴偷移 阅读(15) 评论(0) 推荐(0) 编辑

2024年3月21日

数据清洗使用Parallel 多线程

摘要: 一.概述 在开发数据清洗时,ES数据集有600w条,每一条的子对象又有几十条,需要拿到子对象去重后的集合,使用分批提取ES数据,共535批。开始使用List来操作,关键代码如下: var specListAll = new List<SpecInfo>(); for (int i = 0; i < 阅读全文

posted @ 2024-03-21 18:09 花阴偷移 阅读(36) 评论(0) 推荐(0) 编辑

2024年2月27日

elasticsearch 在.net core中使用Script脚本批量更新

摘要: 目的: 目前有一家供应商数据有110w条数据,需要每天更新全部数据的Createtime创建时间(创建时间到秒不能全部都是一样的),如果使用es游标或者使用分页查询出来再更新,方案是行不通的,这时想到使用Script脚本来批量更新(半小时内全部更新完成),代码如下所示: /// <summary> 阅读全文

posted @ 2024-02-27 17:05 花阴偷移 阅读(53) 评论(0) 推荐(0) 编辑

2024年2月23日

linux cpu 内存分析

摘要: 1.通过分析服务器资源,当发现资源消耗过多时,需要分析什么进程占用了,如下所示 2.分析第一台服务器 通过登录服务器,使用top命令查看,出来信息如下所示: 进程182618的内存占用了52.6%,属于.net应用程序,通过已维护的文档,知道了哪些.net程序的部署了,最终找到是该web应用程序内存 阅读全文

posted @ 2024-02-23 17:50 花阴偷移 阅读(6) 评论(0) 推荐(0) 编辑

2024年2月1日

使用chrome 扩展书签自动保存网页,辅助采集

该文被密码保护。 阅读全文

posted @ 2024-02-01 17:21 花阴偷移 阅读(2) 评论(0) 推荐(1) 编辑

2024年1月31日

scrapy 响应文本乱码(不支持Brotli解压)

摘要: 一.介绍 在scrapy中,默认不支持Brotli解压,当发现响应乱码时,如何分析确定是由Brotli压缩引起的呢? 1)是看请求头是否有'Accept-Encoding': "gzip, deflate, br" 中的br,如果去掉br 再请求网页,如果响应不成功,则表示服务端只支持br压缩格式, 阅读全文

posted @ 2024-01-31 10:59 花阴偷移 阅读(45) 评论(0) 推荐(0) 编辑

2024年1月24日

ja3/ja4 客户端指纹反爬

该文被密码保护。 阅读全文

posted @ 2024-01-24 16:31 花阴偷移 阅读(1) 评论(0) 推荐(0) 编辑

2023年12月13日

elasticsearch 聚合查询

摘要: 1.查看一天时间内,ip的去重总数 post hqbuy_event_tracking-*/_search { "query":{ "range": { "create_timestamp": { "gte": 1702310400, "lt": 1702396800 } } }, "size":0 阅读全文

posted @ 2023-12-13 16:35 花阴偷移 阅读(13) 评论(0) 推荐(0) 编辑

2023年8月24日

elasticsearch from + size must be less than or equal to: [10000] but was [100000]

摘要: 说明:当分页查询时,默认最大总数是10000(from+size<=10000),当我现在业务需要查询最大100000条时,就报错了。 方案1:可以为某个es放开到指定的返回总数,也可以对整个es的索引做设置。但这样对内存消耗很大, 可能导致内存溢出,elasticsearch重启又会恢复默认100 阅读全文

posted @ 2023-08-24 10:36 花阴偷移 阅读(72) 评论(0) 推荐(0) 编辑

2023年8月18日

将博客搬至CSDN

摘要: 本人的博客将如数全部搬至CSDN。个人CSDN博客地址:https://blog.csdn.net/weixin_43394129 阅读全文

posted @ 2023-08-18 15:35 花阴偷移 阅读(30) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 50 下一页

导航