摘要: lucene 本地全文检索 打通es及lucene应用,lucene应用es Query,queryString Query获取及标准化 - cclient - 博客园 (cnblogs.com) flink source-table flink-connector-elasticsearch-so 阅读全文
posted @ 2022-01-06 13:35 cclient 阅读(65) 评论(0) 推荐(0) 编辑
摘要: flink elasticsearch source table 集成 connector开发 代码 https://github.com/cclient/flink-connector-elasticsearch-source 使用示例,查询条件只能通过es.query指定,flink 通过ela 阅读全文
posted @ 2021-07-01 07:56 cclient 阅读(2016) 评论(3) 推荐(0) 编辑
摘要: 基于gitlab runner 的did(docker in docker ) ci/cd k8s方案 首先,jenkins很强大,尤其是各种插件的支持,但实际个人工作中,用到的并不多,早期大型项目布署负载各种脚本和远程调用,目前所有项目和k8s深耦合,已经拆解为各种云服务,jenkins的大部分功 阅读全文
posted @ 2021-06-21 22:59 cclient 阅读(928) 评论(0) 推荐(0) 编辑
摘要: 读写方式 其实个人最近访问hbase 都是通过shc df/sql 来访问的 df的读写方式,足够覆盖90%的场景,但该方案有一个前提是,明确的知道hbase 的列族和列信息,新项目都会规范这一点,可以使用 但有些历史包袱的项目,列族是明确的,但是列族里的列信息是不明确的,正好要做一个旧项目列的标准 阅读全文
posted @ 2021-06-21 22:16 cclient 阅读(1438) 评论(0) 推荐(0) 编辑
摘要: 接上一篇 实现elasticsearch网关,兼容不同版本elasticseach读写请求 实现elasticsearch网关,兼容不同版本es,滚动升级-功能验证开发 项目验证目标 最初目标是完成elasticsearch7.10.2 和 elasticsearch 6.8.14的版本兼容 通过r 阅读全文
posted @ 2021-03-28 16:01 cclient 阅读(853) 评论(0) 推荐(0) 编辑
摘要: 深度学习微软 azure-云服务器组 centos特殊内核版本 gpu NVIDIA 驱动及CUDA 11.0安装 以前写过篇ubuntu装驱动的,这次是centos相关 首先感慨azure的gpu服务器实在是太贵了 技术支持应该也一般,算法团队一直搞不定显卡驱动的问题,和azure客服扯皮,项目进 阅读全文
posted @ 2021-03-04 23:18 cclient 阅读(656) 评论(0) 推荐(1) 编辑
摘要: 安装软件 百度云 迅雷 网易云音乐 网易云音乐-Unblock 搜狗拼音输入法 xnview-图片浏览器 SMPlayer-视频播放 dupeguru-重复文件检索 Chromium UI中文语言支持 ... 考虑镜像体积,只装了个人觉得必要的部分,有其他需求可以进入容器内自行安装 个人试过next 阅读全文
posted @ 2021-03-04 01:06 cclient 阅读(2162) 评论(1) 推荐(0) 编辑
摘要: 以spark sql 维护spark streaming offset 三年前的东西了 项目地址 https://github.com/cclient/spark-streaming-kafka-offset-mysql spark streming消费kafka的模式 Receiver Direc 阅读全文
posted @ 2021-03-03 21:16 cclient 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 首先说,勉强实现了,但不完美,有些额外的应用条件,这也是做减法的最后一篇 因为最初的目标只是提取es query_string的分词对象,其实这一步已经足够满足打通es和其他java,大数据生态 最终因为目标明确,只作query_string,因此选择了做减法的方式 后来又加入了结合非分词查询 类似 阅读全文
posted @ 2021-03-02 22:23 cclient 阅读(301) 评论(0) 推荐(0) 编辑
摘要: Nifi Mutate FlowFile Content Processor 该项目主要是应用官方expression-language(EL)实现类似logstash-plugins-filters-mutate的功能 项目地址 https://github.com/cclient/nifi-mu 阅读全文
posted @ 2021-02-28 21:41 cclient 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 部分项目从kafka迁移至pulsar,近期使用中碰到了一些问题,勉强把大的坑踩完了,topic永驻,性能相关 pulsar概念类的东西官方文档和基本介绍的博客很多,也就不重复说明了,更深入的东西也不涉及 只说下近期的使用体验 设计理念上,虽然pulsar也支持持久化队列,但和kafka对持久化的理 阅读全文
posted @ 2021-02-28 19:09 cclient 阅读(1890) 评论(0) 推荐(1) 编辑
摘要: 官方源码地址 https://github.com/elastic/elasticsearch-hadoop commit elasticsearch update doc by cclient · Pull Request #1080 · elastic/elasticsearch-hadoop 阅读全文
posted @ 2017-12-06 13:50 cclient 阅读(1502) 评论(0) 推荐(0) 编辑
摘要: 需求作相似文本查询 爬虫作页面去重,会用到simhash,第一个想到的是用simhash算法 但在现有数据集(elasticsearch集群)上用simhash,成本高,simhash值还好计算,不论是外部api还是实现一套es token filter都很容易实现.最大的难点在于查询,及相似度计算 阅读全文
posted @ 2017-08-27 18:12 cclient 阅读(1390) 评论(0) 推荐(0) 编辑
摘要: 前端无秘密 直播的逆向抓取说到底是前端的调试和逆向技术,加上部分的dpa(深入包分析,个人能力尚作不到深入,只能作简单分析)难度较低 目前互联网直播弹幕主要是两种技术实现。 1websocket消息通信,js拿到消息再处理到dom中,逆向验证流程,和服务端建立连接后即可,逆向难度较低,消息分明文和加 阅读全文
posted @ 2017-07-29 11:22 cclient 阅读(4585) 评论(0) 推荐(1) 编辑
摘要: 在chrome发布项目,需要先花美金认证,还得要美国ID,无奈。 直接上源码,需手动导入。 原始项目源码并未开源,个人是从chrome本地文件里拿出来的,拓展来的,侵删(本来想着自已写一个,业余时间,为省时间,用了这种方式)。 cclient/chrome-extensions-googletran 阅读全文
posted @ 2015-12-29 14:38 cclient 阅读(1660) 评论(1) 推荐(2) 编辑
摘要: 爬虫 websocket 直播弹幕抓取逆向分析流程总结 websocket,flash chrome插件 添加了有道生词本的 chrome google翻译扩展和有道翻译扩展 js提取auth taobao账号auth web自动化 新浪账号自动化刷新 headless puppeteer抓取微指数 阅读全文
posted @ 2023-12-22 13:01 cclient 阅读(39) 评论(0) 推荐(0) 编辑
摘要: logstash @timestamp 日期及时区问题通用的解决方案 elk生态不少组件都会碰到时区问题,logstash也不例外 改系统时区都解决不了 官方的[Date filter plugin | Logstash Reference 7.16] | Elastic 虽然在时间转换时有zone 阅读全文
posted @ 2022-01-09 16:45 cclient 阅读(3374) 评论(0) 推荐(0) 编辑
摘要: 想把大量本地文件由nextcloud管理 一个个上传显然不现实 即使有批量上传工具,那也是多了次硬盘写入,损硬盘不说,还耗时 期望的功能是,在操作系统文件管理层面,操作文件,例如把一些文件,直接移动/拷贝到nextcloud相关用户的文件目录之下 之后直接作同步,由nextcloud扫描用户目录,加 阅读全文
posted @ 2022-01-08 06:52 cclient 阅读(2749) 评论(0) 推荐(0) 编辑
摘要: 打包操作见,逐行操作即可自已编译jar包 https://github.com/cclient/log4j-2.15.0-rc2-jar 习惯先用jdk1.8打包编译,由于源码里有java9相关的模块,jdk8出错 log4j-core-java9 log4j-api-java9 报错 [ERROR 阅读全文
posted @ 2021-12-10 22:17 cclient 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 目前在一个核心服务上应用一个网关系统,并后期推广升级 网关调研方向包括spring,kong apisix,java栈的netty由于一些原因,不适合应用方向 同时考虑云原生的友好程度,简单说是否有配套的k8s ingress和k8s能使用同一套方案,减少技术团队整体的学习和使用成本,主要考虑kon 阅读全文
posted @ 2021-12-10 21:57 cclient 阅读(2336) 评论(0) 推荐(1) 编辑
摘要: 回顾下之前的ci cd 布署方案,有以下几步 抽像为4个步骤 1 prepare: 根据提交分枝判断上线环境-生成相关的环境变量 2 pakage: 编译/打包项目,生成编译后可执行文件(部分项目项目不需要该步骤,例如python) 3 docker-build: docker 生成镜像并上传doc 阅读全文
posted @ 2021-09-23 11:19 cclient 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 接上一篇,实现flink对elasicsearch的source/table 代码 https://github.com/cclient/flink-connector-elasticsearch-sink flink elasticsearch sink 的 table写,默认会写些'冗余'列进e 阅读全文
posted @ 2021-07-01 08:25 cclient 阅读(488) 评论(1) 推荐(1) 编辑
摘要: 前言 死锁和具体的开发语言无关,工业界使用的主流开发语言者都提供并行/并发,线程/进程,及各种锁的元语 多线程导致的死锁在现在的代码开发中已经很少见了,现在日常谈到的死锁主要是sql这类db的事务导致的sql死锁 因为大部分开发工作已经很少直接和锁打交道,都是各种封装好的组件,如java的juc等。 阅读全文
posted @ 2021-06-21 23:03 cclient 阅读(392) 评论(0) 推荐(0) 编辑