上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 25 下一页
摘要: 官方源码地址 https://github.com/elastic/elasticsearch-hadoop commit elasticsearch update doc by cclient · Pull Request #1080 · elastic/elasticsearch-hadoop 阅读全文
posted @ 2017-12-06 13:50 cclient 阅读(1512) 评论(0) 推荐(0) 编辑
摘要: 应用版本 elasticsearch 5.5 spark 2.2.0 hadoop 2.7 依赖包版本 docker cp /Users/cclient/.ivy2/cache/org.elasticsearch/elasticsearch-spark-20_2.11/jars/elasticsea 阅读全文
posted @ 2017-10-23 21:24 cclient 阅读(1924) 评论(0) 推荐(0) 编辑
摘要: 原同步服务正常,因需,对方单表新增字段,超过22条 sbt assembly 编译出错 too many elements for tuple: 26, allowed: 22 scala case class 最多只支持22个构造参数 遂找解决办法 https://underscore.io/bl 阅读全文
posted @ 2017-10-18 20:19 cclient 阅读(1183) 评论(0) 推荐(0) 编辑
摘要: 接手一个很老的项目 数据库用的mongodb 代码里的collections表名用的auth没问题 直接去monogdb show table 确实有auth表 想在本地登录,看看用户信息 > db.auth.findOne()Thu Sep 21 14:26:03.829 TypeError: O 阅读全文
posted @ 2017-10-12 22:22 cclient 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 上一章看了代码实现,算是搞明白了各参数的意义,现在开始测试,为方便以ik分词示例(对elasticsearch支持较好,测试操作简单) 首先建index,自定义 analysis ik分词用 ik_smart 添加length filter(分词后,只要词长度3个以上的词,这个后面会说明),添加mi 阅读全文
posted @ 2017-08-27 18:47 cclient 阅读(1074) 评论(0) 推荐(0) 编辑
摘要: 需求作相似文本查询 爬虫作页面去重,会用到simhash,第一个想到的是用simhash算法 但在现有数据集(elasticsearch集群)上用simhash,成本高,simhash值还好计算,不论是外部api还是实现一套es token filter都很容易实现.最大的难点在于查询,及相似度计算 阅读全文
posted @ 2017-08-27 18:12 cclient 阅读(1461) 评论(0) 推荐(0) 编辑
摘要: 两个大文本,每行一条int数据 3亿(int)数据-2亿(int)数据 求差集 原始(粗暴)办法 1redis set 或类似方案 本地内存 cpu都撑不住 2持久化两张表 sql join mysql join是两层暴力for的性能太差,还是单线程的sqlserver 三种join方式,1两层fo 阅读全文
posted @ 2017-08-10 11:09 cclient 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 前端无秘密 直播的逆向抓取说到底是前端的调试和逆向技术,加上部分的dpa(深入包分析,个人能力尚作不到深入,只能作简单分析)难度较低 目前互联网直播弹幕主要是两种技术实现。 1websocket消息通信,js拿到消息再处理到dom中,逆向验证流程,和服务端建立连接后即可,逆向难度较低,消息分明文和加 阅读全文
posted @ 2017-07-29 11:22 cclient 阅读(4641) 评论(0) 推荐(1) 编辑
摘要: 角色 client proxy nginx server jersey+netty 问题表现 client 直接请求server 正常,返回准确json数据 jsondat client->nginx->server 经过nginx,则请求长时间阻塞,直到超时返回异常数据 "2000\r\n{jso 阅读全文
posted @ 2017-05-19 16:57 cclient 阅读(2041) 评论(0) 推荐(0) 编辑
摘要: 项目大版本更新依赖很稳定,小版本基本不引入其他依赖 docker打包时image时,一次mvn package后 把m2文件拷贝解压,之后build时直接拷入,省得还得下载 第一次执行package 把m2拷出后打包传入 一切正常 但过了一天后 package时 Downloading: https 阅读全文
posted @ 2017-05-17 20:34 cclient 阅读(3950) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 25 下一页