06 2017 档案

摘要:资料:https://likebeta.gitbooks.io/twisted-intro-cn/zh/p04.html 阅读全文
posted @ 2017-06-30 14:24 匡子语 阅读(207) 评论(0) 推荐(0) 编辑
摘要:说在前面:用协程还是多线程需要仔细考量。我在做实验时请求了100w个ip,分别用pool为1000的协程和64个线程来跑,结果是多线程的速度是协程的10倍以上。 一个简单的协程例子 阅读全文
posted @ 2017-06-29 10:34 匡子语 阅读(472) 评论(0) 推荐(0) 编辑
摘要:来源:http://www.cnblogs.com/yinjia/p/5559702.html 在开发项目过程中,为了方便调试代码,经常会向stdout中输出一些日志,默认的这些日志就直接显示在了终端中。而一般的应用服务器,第三方库,甚至服务器的一些通告也会在终端中显示,这样就搅乱了我们想要的信息。 阅读全文
posted @ 2017-06-27 15:42 匡子语 阅读(762) 评论(0) 推荐(0) 编辑
摘要:场景:在存入16进制id时,由于转换失误,得到的结果是0x1001L的格式,我希望转换为0x1001,去掉最后的L 指令: 阅读全文
posted @ 2017-06-27 12:13 匡子语 阅读(14969) 评论(0) 推荐(2) 编辑
摘要:场景: 有长时间对多个端口访问的日志数据,每天对端口的访问量是稳定的。如果某一天对某个端口的访问量突然增加表示可能出现了问题。现在要通过splunk找到异常值。 思路: 统计每个端口每天的访问量。统计其最大值,平均值,中位数。最大值和平均值比值大的,以及最大值和中位数比值大的就是可能异常的地方。通过 阅读全文
posted @ 2017-06-27 10:19 匡子语 阅读(3400) 评论(0) 推荐(0) 编辑
摘要:看完不用,就是一个字:忘! 之前学了两天git结果今天要用的时候,啥也想不起来.... 场景: 已有远程仓库: git@192.168.1.1:test/test.git 要提交代码到远程仓库的新分支 1.本地文件夹初始化 在代码所在文件夹执行 2.添加远程仓库 2.1 将本地主机中~/.ssh/i 阅读全文
posted @ 2017-06-26 14:56 匡子语 阅读(424) 评论(0) 推荐(0) 编辑
摘要:原始数据是unicode,存入数据库。需要注意的几个地方: 1、建立数据库时,选择编码方式为utf8 -- UTF-8 Unicode 2、代码中建立数据库连接时,选择charset=utf8 3、存入数据前,处理数据MySQLdb.escape_string(data.encode('utf-8' 阅读全文
posted @ 2017-06-23 17:10 匡子语 阅读(182) 评论(0) 推荐(0) 编辑
摘要:场景: 有一个docker, 在该docker中有服务A,希望每次启动容器时服务A都随着容器启动。这样就不用每次都进入容器手动启动服务了。 方法: 1.需要在docker中添加一个启动服务脚本auto_service.sh 注意:上面三行都是必须的。 #!/bin/sh 告诉linux应该使用什么指 阅读全文
posted @ 2017-06-23 11:07 匡子语 阅读(12872) 评论(1) 推荐(1) 编辑
摘要:在数据操作中有三个考虑指标:大数据、精确性和实时性。三者难以同时满足。 精确 + 实时 数据可以存入单台机器的内存之中,我们可以随心所欲,使用任何想用的算法。结果会 100% 精确,响应会相对快速。 大数据 + 精确 传统的 Hadoop。可以处理 PB 级的数据并且为我们提供精确的答案,但它可能需 阅读全文
posted @ 2017-06-16 16:27 匡子语 阅读(850) 评论(0) 推荐(0) 编辑
摘要:聚合结果的排序 默认:桶会根据 doc_count 降序排列。 内置排序: 设置按doc_count升序排序:注意order,_count 其他排序关键字: _count 按文档数排序。对 terms 、 histogram 、 date_histogram 有效。 _term 按词项的字符串值的字 阅读全文
posted @ 2017-06-16 13:02 匡子语 阅读(1842) 评论(1) 推荐(0) 编辑
摘要:聚合是在查询匹配的文档中做统计的 不指定查询语句时,从所有文档中匹配。 下面两个语句等价: 全局桶:global 一个包含所有数据的桶,可以在即想使用子集,又想使用全集时用到。 一个同时包括过滤和聚合的例子 过滤桶:filter 只有查询结果中符合条件的文档才会放入过滤桶,用于对聚合结果过滤 后过滤 阅读全文
posted @ 2017-06-15 19:11 匡子语 阅读(351) 评论(0) 推荐(0) 编辑
摘要:按时间统计:date_histogram 注意,这种写法在数字字段没有问题,但是在文本字段使用之前必须先把对应字段的fielddata设为true才可以。否则会报错: 注意,设置了fielddata会消耗大量内存。 返回空buckets:设置参数 min_doc_count 限制返回时间范围:设置参 阅读全文
posted @ 2017-06-15 16:42 匡子语 阅读(464) 评论(0) 推荐(0) 编辑
摘要:参考资料: https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/_combining_the_two.html 特定概念: 桶(Buckets)满足特定条件的文档的集合 指标(Metrics)对桶内的文档进行统计计算 CO 阅读全文
posted @ 2017-06-14 18:55 匡子语 阅读(255) 评论(0) 推荐(0) 编辑
摘要:参考: http://www.cnblogs.com/kaituorensheng/p/3595879.html https://github.com/fxsjy/jieba 判断是否包含中文 提取中文 中文分词 使用模块jieba。安装pip install jieba Full Mode: 我 阅读全文
posted @ 2017-06-14 15:56 匡子语 阅读(1448) 评论(0) 推荐(0) 编辑
摘要:本系列的笔记都来自:https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/multi-field-search.html 下面的语句通过boost提高了title和author的权重。如果不加boost字段,则title,a 阅读全文
posted @ 2017-06-13 18:45 匡子语 阅读(1399) 评论(0) 推荐(0) 编辑
摘要:刚开始接触es,由于弄不清楚match_phrase和regexp导致很多查询结果与预想的不同。在这整理一下。 regexp:针对的是单个词项 match_phrase:针对的是多个词项的相对位置 它们的查询结果跟分析器分词的方式有很大关系。 比如,我有两个字符串"HELLO-world" 和 "h 阅读全文
posted @ 2017-06-12 19:34 匡子语 阅读(3637) 评论(0) 推荐(0) 编辑
摘要:全文搜索两个最重要的方面是:相关性, 分析。 一旦谈论相关性或分析这两个方面的问题时,我们所处的语境是关于查询的而不是过滤。 match:单个词查询 步骤:1.分析字段类型,是string。2.分析查询字符串,得到一个单词quick。3.用term查询,在倒排索引中查找quick。4.为文档评分。 阅读全文
posted @ 2017-06-12 18:37 匡子语 阅读(384) 评论(0) 推荐(0) 编辑
摘要:来源:http://blog.csdn.net/kevin6216/article/details/9021039 在多线程中用strptime需要加锁!!! 阅读全文
posted @ 2017-06-12 16:50 匡子语 阅读(648) 评论(0) 推荐(0) 编辑
摘要:在控制台 splunk目录/bin下 启动时出错,需要更改一下SPLUNK的配置 $SPLUNK_HOME/etc/splunk-launch.conf: 阅读全文
posted @ 2017-06-09 20:23 匡子语 阅读(2018) 评论(0) 推荐(0) 编辑
摘要:如果要插入一大批数据,千万不要一条一条的execute, commit。而应该是先全部execute,最后统一commit!!! 千万注意,时间差距还是很大的!! 正确示范:快 错误示范:慢 阅读全文
posted @ 2017-06-09 11:33 匡子语 阅读(197) 评论(0) 推荐(0) 编辑
摘要:仪表盘导出: splunk目录/etc/users/admin/search/local/data/ui/views 目录下,拷贝所有的xml文件 导入: 创建仪表盘->编辑来源 将上面导入的xml内容复制到文本框中,完成。 阅读全文
posted @ 2017-06-08 20:43 匡子语 阅读(784) 评论(0) 推荐(0) 编辑
摘要:1. 结构化搜索得到的结果只有是和否,没有相似概念。 term可以实现精确值查询 因为term是非评分的,所以要用constant_score的方式将其转化为过滤器。注意:如果没有constant_score是会报错的。 查看字段是否可以用精确值查询,可以通过analyze API。下面是例子,可以 阅读全文
posted @ 2017-06-06 18:07 匡子语 阅读(289) 评论(0) 推荐(0) 编辑
摘要:encode('string-escape') 解决 比如想匹配'\x0e\x0a'中的'\x'后的内容,这里希望把'\x0e'作为一个字符串,那么其中的\应该被转义。 未加转义的正则: p = '(?<=\x)[0-9A-Za-z]{2}' 直接这样写会报错,需要给\转义,于是变为 p = '(? 阅读全文
posted @ 2017-06-05 22:09 匡子语 阅读(1093) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python #coding=utf-8 from elasticsearch import Elasticsearch from elasticsearch_dsl import Search class ES(object): def __init__(self): self.es = Elasticsearch(hosts="loc... 阅读全文
posted @ 2017-06-05 21:52 匡子语 阅读(468) 评论(0) 推荐(0) 编辑
摘要:写了个多线程的python脚本,结果居然死锁了。调试了一整天才找到原因,是我使用queue的错误导致的。 为了说明问题,下面是一个简化版的代码。注意,这个代码是错的,后面会说原因和解决办法。 上面这个代码是会造成死锁的。原因就在下面这一小段。 由于有多个线程同时运行此段代码,所以队列q是各个线程共享 阅读全文
posted @ 2017-06-05 21:37 匡子语 阅读(5719) 评论(0) 推荐(2) 编辑
摘要:1.空查询 2.查询表达式 DSL只需将查询语句传递给 query 参数 查询全部 match_all 跟空查询等价 针对某个字段,结构 3.查询与过滤 查询:一个评分的匹配,计算相似度 过滤:一个不评分的匹配,只有是或否。过滤的性能更好。 4.重要字段 match_all:匹配所有 match:全 阅读全文
posted @ 2017-06-04 15:39 匡子语 阅读(528) 评论(0) 推荐(0) 编辑
摘要:1.空搜索 返回所有索引下的所有文档 设置超时。timeout 不是停止执行查询,它仅仅是告知正在协调的节点返回到目前为止收集的结果并且关闭连接。在后台,其他的分片可能仍在执行查询即使是结果已经被发送了。 2.多索引,多类型 /_search 在所有的索引中搜索所有的类型 /gb/_search 在 阅读全文
posted @ 2017-06-04 14:31 匡子语 阅读(308) 评论(0) 推荐(0) 编辑
摘要:参考资料: https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/_search_lite.htm 1.查询es数据的方法 2.轻量搜索 查询index=megacorp, doc_type=employee的所有文档 查询 阅读全文
posted @ 2017-06-04 13:44 匡子语 阅读(305) 评论(0) 推荐(0) 编辑