随笔档案「2017年2月」 - bonelee

elasticsearch function_score Query——文档排序结果的最后一道墙

摘要：function_score Query function_score Query function_score Query function_score Query The function_score query is the ultimate tool for taking control o 阅读全文

posted @ 2017-02-28 20:28 bonelee 阅读(856) 评论(0) 推荐(0)

矩阵管理——和visitor模式没有本质区别，都是为了避免资源重复

摘要：矩阵管理中的员工是双线汇报的模式。其上司有两个，一个是流程上司，一个是专业上司。流程上司负责你的日常考核，专业上司负责你的晋升和任免。管理条件矩阵管理中的员工是双线汇报的模式。其上司有两个，一个是流程上司，一个是专业上司。流程上司负责你的日常考核，专业上司负责你的晋升和任免。管理条件相对于矩阅读全文

posted @ 2017-02-28 09:30 bonelee 阅读(1113) 评论(0) 推荐(0)

矩阵管理——本质是职能分工，例如所有部门都执行财务部门制定的财务制度而不会各自为政

摘要：矩阵管理概述矩阵管理概述矩阵管理是一种组织结构的管理模式，由专门从事某项工作的工作小组形式发展而来。矩阵管理结构中的人员分别来自不同的部门，有着不同技能、不同知识和不同背景，大家为了某个特定的任务（项目）而共同工作。矩阵管理的类型矩阵管理的类型矩阵管理分为多种类型，其一为基本型,另一种矩阵阅读全文

posted @ 2017-02-28 09:15 bonelee 阅读(1909) 评论(0) 推荐(0)

linkedin databus介绍——监听数据库变化，有新数据到来时通知其他消费者app，新数据存在内存里，多份快照

摘要：概要结构如下图。图中显示：Search Index和Read Replicas等系统是Databus的消费者。当主OLTP数据库发生写操作时，连接其上的中继系统会将数据拉到中继中。签入在Search Index或是缓存中的Databus消费者客户端，就会从中继中拉出数据，并更新索引或缓存。 Dat 阅读全文

posted @ 2017-02-27 20:29 bonelee 阅读(3722) 评论(0) 推荐(1)

ES忽略TF-IDF评分——使用constant_score

摘要：Ignoring TF/IDF Ignoring TF/IDF Ignoring TF/IDF Ignoring TF/IDF Sometimes we just don’t care about TF/IDF. All we want to know is that a certain word 阅读全文

posted @ 2017-02-27 19:38 bonelee 阅读(5567) 评论(0) 推荐(0)

ES设置字段搜索权重——Query-Time Boosting

摘要：Query-Time Boosting Query-Time Boosting Query-Time Boosting Query-Time Boosting In Prioritizing Clauses, we explained how you could use the boost para 阅读全文

posted @ 2017-02-27 19:23 bonelee 阅读(9834) 评论(0) 推荐(0)

lucene内置的评分函数

摘要：For multiterm queries, Lucene takes the Boolean model, TF/IDF, and the vector space model and combines them in a single efficient package that collect 阅读全文

posted @ 2017-02-27 19:16 bonelee 阅读(741) 评论(1) 推荐(0)

ES搜索排序，文档相关度评分介绍——Vector Space Model

摘要：Vector Space Model Vector Space Model The vector space model provides a way of comparing a multiterm query against a document. The output is a single 阅读全文

posted @ 2017-02-27 14:52 bonelee 阅读(549) 评论(1) 推荐(0)

摘要：Theory Behind Relevance Scoring Theory Behind Relevance Scoring Theory Behind Relevance Scoring Theory Behind Relevance Scoring Lucene (and thus Elast 阅读全文

posted @ 2017-02-27 14:46 bonelee 阅读(612) 评论(1) 推荐(0)

ES搜索排序，文档相关度评分介绍——Field-length norm

摘要：Field-length norm How long is the field? The shorter the field, the higher the weight. If a term appears in a short field, such as a title field, it i 阅读全文

posted @ 2017-02-27 14:45 bonelee 阅读(1750) 评论(1) 推荐(0)

ES 搜索结果expalain 可以类似数据库性能调优来看排序算法的选择

摘要：When we run a simple term query with explain set to true (see Understanding the Score), you will see that the only factors involved in calculating the 阅读全文

posted @ 2017-02-27 12:21 bonelee 阅读(920) 评论(0) 推荐(0)

Lucene默认的打分算法——ES默认

摘要：改变Lucene的打分模型随着Apache Lucene 4.0版本在2012年的发布，这款伟大的全文检索工具包终于允许用户修改默认的基于TF/IDF原理的打分算法。Lucene API变得更加容易修改和扩展打分公式。但是，对于文档的打分计算，Lucene并只是允许用户在打分公式上修修补补，Luc 阅读全文

posted @ 2017-02-27 11:27 bonelee 阅读(5288) 评论(0) 推荐(0)

ES 相似度算法设置（续）

摘要：Tuning BM25 Tuning BM25 One of the nice features of BM25 is that, unlike TF/IDF, it has two parameters that allow it to be tuned: k1This parameter con 阅读全文

posted @ 2017-02-27 11:14 bonelee 阅读(5364) 评论(0) 推荐(0)

ES BM25 TF-IDF相似度算法设置——

摘要：Pluggable Similarity Algorithms Before we move on from relevance and scoring, we will finish this chapter with a more advanced subject: pluggable simi 阅读全文

posted @ 2017-02-27 11:13 bonelee 阅读(3657) 评论(0) 推荐(0)

Elasticsearch mapping文档相似性算法

摘要：Elasticsearch allows you to configure a scoring algorithm or similarity per field. The similaritysetting provides a simple way of choosing a similarit 阅读全文

posted @ 2017-02-27 11:00 bonelee 阅读(2183) 评论(0) 推荐(1)

四川南部县护照办理

摘要：南充南部县护照办理地点南部县新政府—政务中心三楼（南部县公安局出入境办证厅）南充南部县办护照要多久 30个工作日(不含周六周日及法定假日) 南充南部县办护照要多少钱 200元南充南部县办护照需要什么证件户口薄原件+身份证+照片（必须本人到场办理）南充南部县护照办理及进度查询咨询电话 081 阅读全文

posted @ 2017-02-26 21:12 bonelee 阅读(8058) 评论(1) 推荐(1)

营山护照办理

摘要：您申办的普通护照、往来港澳通行证和签注、往来台湾通行证和签注业务已预约成功。请记录申请密码3et488sx93，以便查询或取消本次预约。请于2017年03月13日08:30-12:00携带居民身份证和所需的相关证件、材料，提前15分钟前往南充公安出入境营山受理点(地点：南充市营山县永安大道670号) 阅读全文

posted @ 2017-02-26 21:02 bonelee 阅读(2928) 评论(1) 推荐(0)

非北京人员办理护照

摘要：一、非京籍在京就业人员、在京高等院校在读非京籍大学生；上述人员的配偶（属于登记备案的国家工作人员除外）及未满16周岁子女（均须在京居住满6个月）；本市户籍人员非京户籍的配偶及未满16周岁子女；非本市户籍且在京居住满6个月的人员（属于登记备案的国家工作人员除外）；非本市户籍60周岁（含）以上且在京居住阅读全文

posted @ 2017-02-26 20:24 bonelee 阅读(685) 评论(0) 推荐(0)

护照填写注意事项

摘要：参考样表： http://wenku.baidu.com/link?url=-E1v4utcUqdLE5Wh-psfr5AdpWKjpSs9MIGzAH__rPVj9Ue934WNiyPyUbRUvh61_gTvlJ9qs8JmohHf4cNxlxtRoAjMB10KLqaJsHeAOg7 http 阅读全文

posted @ 2017-02-26 20:01 bonelee 阅读(619) 评论(0) 推荐(0)

美国会议签证——我是正当理由去美国，我能支付（或有人为我支付）我在美国期间的所有费用，办完事我肯定回来，邀请信,行程表这些材料齐全即可

摘要：B1和B2签证的申请人必须能证明其意图只是临时进入美国, 目的仅为旅游和/或进行短期商务活动。申请人还必须证明有充足的资金支付在美停留期间的费用, 并证明其在祖国有牢固的社会、经济和其它方面的联系以迫使其在美短期、合法访问后如期返回。——本质阅读全文

posted @ 2017-02-25 15:53 bonelee 阅读(521) 评论(1) 推荐(0)

*** ——https://www.ss-link.me/

摘要：IP 104.250.146.37 port 55555 ps four912755four2 ag aes-256-cfb 阅读全文

posted @ 2017-02-25 10:15 bonelee 阅读(4) 评论(0) 推荐(0)

程序猿老公去米国参加 WWDC，顺便想带渡老婆蜜月，如何办签证？

摘要：这个问题要拆开描述比较好：1. 老公是苹果开发者，抽中了2014 WWDC购票机会，打算自费去参加。如果自己成行，应该办何种签证？2. 顺带，两人新婚半年还未安排蜜月，打算提前几天过去先游览一下西海岸，就当做蜜月了。如果一起签证，对办理是否有影响？多谢指教~ 转自：https://www.v2ex. 阅读全文

posted @ 2017-02-25 10:04 bonelee 阅读(793) 评论(0) 推荐(0)

B1/B2签证的有效期——对于B1/B2签证，停留期最长不超过183天

摘要：一、关于签证有效期首先我们要知道当我们历经困难从签证官手里拿到自己的签证的时候，签证上面有个时间这个我们叫做签证有效期。B1/B2一般是一年多次往返的，这个只跟你申请的签证类型有关，与你填表的时候写的预计赴美时间和在美停留时间实际上关系不大！当B1/B2签证被美国外交部批准，一般来说会是一年多次往返阅读全文

posted @ 2017-02-25 09:55 bonelee 阅读(9433) 评论(0) 推荐(0)

2017 google IO大会——5.17

摘要：大家好！每年一度的全球互联网及新型技术的盛会 Google IO，今年的大会日期和地址已经公布了：大会将在5月17至19日在谷歌公司总部边上的会场，美国加州 Mountain View的 Shoreline Amphitheatre 举办 (在去年大会同样的地方)。大会网站的地址为：https:/ 阅读全文

posted @ 2017-02-25 09:43 bonelee 阅读(1830) 评论(0) 推荐(0)

google IO大会

摘要：怎么参加一次 Google I/O？大概要多少预算？ Google I/O（参加Goole I/O 是我的一个梦想，因为我是Google死忠，想亲自去Google总部看看，所以想知道这些）费用构成： B1签证1024+36电话卡=1060。 google I/O门票以2012的价格计$900。大概阅读全文

posted @ 2017-02-25 09:41 bonelee 阅读(706) 评论(0) 推荐(0)

elasticsearch _source字段的一些说明

摘要：_source field _source field The _source field contains the original JSON document body that was passed at index time. The_source field itself is not i 阅读全文

posted @ 2017-02-24 16:32 bonelee 阅读(5802) 评论(0) 推荐(0)

elasticsearch ——id字段说明，内部是_uid

摘要：_id field _id field Each document indexed is associated with a _type (see the section called “Mapping Typesedit”) and an_id. The _id field is not inde 阅读全文

posted @ 2017-02-24 11:32 bonelee 阅读(6411) 评论(0) 推荐(0)

企业安全建设之搭建开源SIEM平台（上）

摘要：前言前言 SIEM（security information and event management），顾名思义就是针对安全信息和事件的管理系统，针对大多数企业是不便宜的安全系统，本文结合作者的经验介绍下如何使用开源软件搭建企业的SIEM系统，数据深度分析在下篇。 SIEM的发展对比Gartn 阅读全文

posted @ 2017-02-24 10:12 bonelee 阅读(5982) 评论(0) 推荐(1)

江西鹰潭、江西移动与华为战略合作：共推物联网——物联网的世界要到来了

摘要：江西鹰潭、江西移动与华为战略合作：共推物联网科技边角料 2017-01-10 12:42:21 华为物联网阅读(2889) 评论(0) 江西鹰潭、江西移动与华为战略合作：共推物联网科技边角料 2017-01-10 12:42:21 华为物联网阅读(2889) 评论(0) 江西鹰潭、江西移阅读全文

posted @ 2017-02-24 09:50 bonelee 阅读(406) 评论(0) 推荐(0)

Luke 5—— 可视化 Lucene 索引查看工具，可以查看ES的索引

摘要：Luke 5 发布，可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日这是一个主要版本，该版本支持 Lucene 5.2.0。它支持 elasticsearch 1.6.0（Lucene的4.10.4）已解决的问题：＃20增加支持重建索引并不会存储领域，不暴露位置的字阅读全文

posted @ 2017-02-23 15:07 bonelee 阅读(2821) 评论(0) 推荐(0)

Apache Flink vs Apache Spark——感觉二者是互相抄袭啊看谁的好就抄过来 Flink支持在runtime中的有环数据流，这样表示机器学习算法更有效而且更有效率

摘要：Apache Flink是什么 Flink是一款新的大数据处理引擎，目标是统一不同来源的数据处理。这个目标看起来和Spark和类似。没错，Flink也在尝试解决 Spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量，流式，交互式，图处理，机器学习等应用。所以，Flink和Spar 阅读全文

posted @ 2017-02-23 14:57 bonelee 阅读(5534) 评论(0) 推荐(0)

druid相关的时间序列数据库——也用到了倒排相关的优化技术

摘要：Cattell [6] maintains a great summary about existing Scalable SQL and NoSQL data stores. Hu [18] contributed another great summary for streaming datab 阅读全文

posted @ 2017-02-23 14:31 bonelee 阅读(637) 评论(0) 推荐(0)

时间序列数据库——索引用ES、聚合分析时加载数据用什么？docvalues的列存储貌似更优优势一些。那分布式计算呢？ES做

摘要：分布式计算分布式聚合如何做得快 Elasticsearch/Lucene从最底层就支持数据分片，查询的时候可以自动把不同分片的查询结果合并起来。Elasticsearch的document都有一个uid，默认策略是按照uid 的 hash把文档进行分片。一个Elasticsearch Index 阅读全文

posted @ 2017-02-23 11:42 bonelee 阅读(1852) 评论(0) 推荐(0)

时间序列数据库——索引用ES、聚合分析时加载数据用什么？docvalues的列存储貌似更优优势一些

摘要：加载如何利用索引和主存储，是一种两难的选择。选择不使用索引，只使用主存储：除非查询的字段就是主存储的排序字段，否则就需要顺序扫描整个主存储。选择使用索引，然后用找到的row id去主存储加载数据：这样会导致很多碎片化的随机读操作。（ES检索出来的一堆ID，然后根据这些ID去数据库里取东西就是碎阅读全文

posted @ 2017-02-23 11:37 bonelee 阅读(1674) 评论(0) 推荐(0)

时间序列数据库概览——基于文件（RRD）、K/V数据库（influxDB）、关系型数据库

摘要：一般人们谈论时间序列数据库的时候指代的就是这一类存储。按照底层技术不同可以划分为三类。直接基于文件的简单存储：RRD Tool，Graphite Whisper。这类工具附属于监控告警工具，底层没有一个正规的数据库引擎。只是简单的有一个二进制的文件结构。基于K/V数据库构建：opentsdb（基阅读全文

posted @ 2017-02-23 11:12 bonelee 阅读(5047) 评论(1) 推荐(0)

ES索引瘦身禁用_source后需要设置field store才能获取数据否则无法显示搜索结果

摘要：在默认情况下,开启_all和_source 这样索引下来,占用空间很大. 根据我们单位的情况，我觉得可以将需要的字段保存在_all中,然后使用IK分词以备查询,其余的字段,则不存储. 并且禁用_source字段.(也可以通过_source includes或者excludes 指定或者排除字段) { 阅读全文

posted @ 2017-02-23 11:02 bonelee 阅读(4447) 评论(0) 推荐(0)

Elasticsearch: Five Things I was Doing Wrong

摘要：Elasticsearch: Five Things I was Doing Wrong Update: Also check out my series on scaling Elasticsearch. I’ve been working with Elasticsearch off and o 阅读全文

posted @ 2017-02-23 10:50 bonelee 阅读(267) 评论(0) 推荐(0)

ES禁用_source不会影响聚合

摘要：From Elasticsearch's website: The _source field contains the original JSON document body that was passed at index time. The _source field itself is no 阅读全文

posted @ 2017-02-23 10:38 bonelee 阅读(1331) 评论(0) 推荐(0)

Anomaly Detection for Time Series Data with Deep Learning——本质分类正常和异常的行为，对于检测异常行为，采用预测正常行为方式来做

摘要：A sample network anomaly detection project Suppose we wanted to detect network anomalies with the understanding that an anomaly might point to hardwar 阅读全文

posted @ 2017-02-23 09:56 bonelee 阅读(1473) 评论(0) 推荐(0)

深度学习在gilt应用——用图像相似性搜索引擎来商品推荐和服务属性分类

摘要：机器学习起源于神经网络，而深度学习是机器学习的一个快速发展的子领域。最近的一些算法的进步和GPU并行计算的使用，使得基于深度学习的算法可以在围棋和其他的一些实际应用里取得很好的成绩。时尚产业是深度学习的目标领域之一。闪购网站Gilt就一直在使用深度学习来进行产品推荐和服装的属性分类。裙子样式是通过阅读全文

posted @ 2017-02-23 09:24 bonelee 阅读(1144) 评论(0) 推荐(0)

Linus Torvalds: 成功的项目源于99%的汗水与1%的创新

摘要：2017年2月15日，在加利福尼亚州的开源领袖峰会上，由Linux基金会执行董事Jim Zemlin进行的一次采访中，Torvalds讨论了他如何管理Linux内核的开发以及他对工作的态度。 Linus Torvalds认为，科技行业对创新的颂扬是一种自鸣得意，沾沾自喜，以自我为中心。他更直白地表阅读全文

posted @ 2017-02-23 09:17 bonelee 阅读(366) 评论(0) 推荐(0)

redis实现分布式锁——核心 setx+pipe watch监控key变化-事务

摘要：如何设计一把分布式锁我们用 redis 来实现这把分布式的锁，redis 速度快、支持事务、可持久化的特点非常适合创建分布式锁。分布式环境中如何消除网络延迟对锁获取的影响锁，简单来说就是存于 redis 中一个唯一的 key。一般而言，redis 用 set 命令来完成一个 key 的设置(加阅读全文

posted @ 2017-02-22 20:22 bonelee 阅读(2837) 评论(0) 推荐(0)

分布式锁的实现方式——ACID数据库、缓存或者是zk

摘要：针对分布式锁的实现，目前比较常用的有以下几种方案：基于数据库实现分布式锁基于缓存（redis，memcached，tair）实现分布式锁基于Zookeeper实现分布式锁在分析这几种实现方案之前我们先来想一下，我们需要的分布式锁应该是怎么样的？（这里以方法锁为例，资源锁同理）可以保证在分布阅读全文

posted @ 2017-02-22 20:12 bonelee 阅读(1432) 评论(1) 推荐(0)

ES索引瘦身压缩——_source _all 均disable filed store为no，引入第三方DB存储原始数据，去掉pos倒排和doc_values，强制定期merge segments，将所有fileds合并为一个field big string

摘要：原始数据：835MB ES 设置了_source _all disabled 且设置了仅仅存docs倒排Wed Feb 22 11:58:27 CST 2017Before size:1 /home/bone/elasticsearch-2.4.1/data/OK, waiting...0After 阅读全文

posted @ 2017-02-22 18:20 bonelee 阅读(2032) 评论(0) 推荐(0)

elasticsearch的store属性跟_source字段——如果你的文档长度很长，存储了_source，从_source中获取field的代价很大，你可以显式的将某些field的store属性设置为yes，否则设置为no

摘要：转自：http://kangrui.iteye.com/blog/2262860 转自：http://kangrui.iteye.com/blog/2262860 众所周知_source字段存储的是索引的原始内容，那store属性的设置是为何呢？es为什么要把store的默认取值设置为no？设置为y 阅读全文

posted @ 2017-02-22 14:24 bonelee 阅读(1294) 评论(0) 推荐(0)

ES field store yes no 区别——可以设置为false，如果_source有的话

摘要：store store By default, field values are indexed to make them searchable, but they are not stored. This means that the field can be queried, but the o 阅读全文

posted @ 2017-02-22 14:06 bonelee 阅读(2529) 评论(0) 推荐(0)

ES _all、_source的使用——_all字段连接所有字段的值构成一个用空格（space）分隔的大string而被analyzed和index，document主体保存在_source中

摘要：1._all 1.1_all field _all字段是一个很少用到的字段，它连接所有字段的值构成一个用空格（space）分隔的大string，该string被analyzed和index，但是不被store。当你不知道不清楚document结构的时候，可以用_all。如，有一document： [ 阅读全文

posted @ 2017-02-22 13:14 bonelee 阅读(4827) 评论(0) 推荐(0)

ES _source字段介绍——json文档，去掉的话无法更新部分文档，最重要的是无法reindex

摘要：摘自：https://es.xiaoleilu.com/070_Index_Mgmt/31_Metadata_source.html The _source field stores the JSON you send to Elasticsearch and you can choose to o 阅读全文

posted @ 2017-02-22 12:24 bonelee 阅读(7209) 评论(0) 推荐(0)

ES提高数据压缩的设置——单字段，去掉source和all

摘要：此外，强制merge也可以大大降低索引的大小！ curl -XPOST 'localhost:9200/hec_test3/_forcemerge' 阅读全文

posted @ 2017-02-22 12:06 bonelee 阅读(4148) 评论(0) 推荐(0)

linux 替换目录下文件所有关键字

摘要：for i in *;do sed -ie 's/_test2/_test3/g' $i; sed -ie 's/_type2/_type3/g' $i; done 539down voteaccepted 1. Replacing all occurrences of one string wit 阅读全文

posted @ 2017-02-22 11:31 bonelee 阅读(1909) 评论(0) 推荐(0)

2015年各银行无抵押信用贷款利率及额度是多少？

摘要：2015年各银行无抵押信用贷款利率及额度是多少？时间：2015-05-05 来源：融360整理作者：小康银行无抵押信用贷款的利率是多少，一般能贷到多少额度？数据显示，近几年银行的不良贷款率依旧在攀升，其中信用卡占款及无抵押贷款不良率占比较大，于是不少银行开始收紧个人信用贷款且对资质审核也愈加严阅读全文

posted @ 2017-02-22 10:03 bonelee 阅读(859) 评论(0) 推荐(0)

摘要：http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 汇总于此还有这本书 http://www-nlp.stanford.edu/IR-book/ 里面有词向量空间 SVM 等介绍 http://pages.cs.wisc.edu/~dbbook/ope 阅读全文

posted @ 2017-02-21 12:05 bonelee 阅读(1745) 评论(0) 推荐(0)

利用simhash计算文本相似度

摘要：摘自：http://www.programcreek.com/java-api-examples/index.php?source_dir=textmining-master/src/com/gta/simhash/SimHash.java 阅读全文

posted @ 2017-02-21 11:56 bonelee 阅读(2404) 评论(0) 推荐(0)

文本去重之MinHash算法——就是多个hash函数对items计算特征值，然后取最小的计算相似度

摘要：来源：http://my.oschina.net/pathenon/blog/65210 1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出，最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。阅读全文

posted @ 2017-02-21 11:34 bonelee 阅读(2221) 评论(0) 推荐(0)

Progressive Web App是一个利用现代浏览器的能力来达到类似APP的用户体验的技术——不就是chrome OS吗？

摘要：什么是Progressive Web App? Progressive Web App是一个利用现代浏览器的能力来达到类似APP的用户体验的技术，由Google实现，让浏览器打开的网址像APP一样运行在手机上。让Web App和Native App之间的差距更小。概览特性：添加到屏幕从屏幕点击阅读全文

posted @ 2017-02-21 10:20 bonelee 阅读(1568) 评论(0) 推荐(0)

Docker与LXC、虚拟化技术的区别——虚拟化技术本质上是在模拟硬件，Docker底层是LXC，本质都是cgroups是在直接操作硬件

摘要：先说和虚拟化技术的区别：难道虚拟技术就做不到吗？不不不，虚拟技术也可以做到，但是会有一定程度的性能损失，灵活度也会下降。容器技术不是模仿硬件层次，而是在Linux内核里使用cgroup和namespaces来打造轻便的、将近裸机速度的虚拟技术操作系统环境。因为不是虚拟化存储，所以容器技术不会管阅读全文

posted @ 2017-02-21 09:51 bonelee 阅读(2166) 评论(0) 推荐(0)

LXC linux容器简介——在操作系统层次上为进程提供的虚拟的执行环境，限制其使用的CPU和mem等资源，底层是linux内核资源管理的cgroups子系统

摘要：1.LXC是什么？ LXC是Linux containers的简称，是一种基于容器的操作系统层级的虚拟化技术。 2.LXC可以做什么？ LXC可以在操作系统层次上为进程提供的虚拟的执行环境，一个虚拟的执行环境就是一个容器。可以为容器绑定特定的cpu和memory节点，分配特定比例的cpu时间、IO 阅读全文

posted @ 2017-02-21 09:41 bonelee 阅读(1155) 评论(0) 推荐(0)

A N EAR -D UPLICATE D ETECTION A LGORITHM T O F ACILITATE D OCUMENT C LUSTERING——有时间看看里面的相关研究

摘要：摘自：http://aircconline.com/ijdkp/V4N6/4614ijdkp04.pdf In the syntactical approach we define binary attributes that correspond to each fixed length subs 阅读全文

posted @ 2017-02-20 18:03 bonelee 阅读(545) 评论(0) 推荐(0)

一个基于特征向量的近似网页去重算法——term用SVM人工提取训练，基于term的特征向量，倒排索引查询相似文档，同时利用cos计算相似度

摘要：摘要在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度，提出一种基于特征向量的大规模中文近似网页检测算法DDW（Detect near-Duplicate WebPages )。试验证明，比起其他网页去重算法(I-Matc 阅读全文

posted @ 2017-02-20 17:22 bonelee 阅读(1517) 评论(0) 推荐(0)

python UDP CS demo

摘要：UDP Communication Contents UDP Communication Sending Receiving Using UDP for e.g. File Transfers Multicasting? Contents See also SoapOverUdp, TcpCommu 阅读全文

posted @ 2017-02-20 16:39 bonelee 阅读(395) 评论(0) 推荐(0)

python glances来监控linux服务器CPU 内存 IO使用

摘要：什么是 Glances？ Glances 是一个由 Python 编写，使用 psutil 库来从系统抓取信息的基于 curses 开发的跨平台命令行系统监视工具。通过 Glances，我们可以监视 CPU，平均负载，内存，网络流量，磁盘 I/O，其他处理器和文件系统空间的利用情况。 Gla 阅读全文

posted @ 2017-02-20 15:00 bonelee 阅读(2662) 评论(0) 推荐(0)

大数据日志分析产品——SaaS Cloud, e.g. Papertrail, Loggly, Sumo Logic；Open Source Frameworks, e.g. ELK stack, Graylog；Enterprise Products, e.g. TIBCO LogLogic, IBM QRadar, Splunk

摘要：Learn how you can maximize big data in the cloud with Apache Hadoop. Download this eBook now. Brought to you in partnership with Hortonworks. In Febru 阅读全文

posted @ 2017-02-20 11:47 bonelee 阅读(910) 评论(0) 推荐(0)

shingling算法——提取特征，m个hash函数做指纹计算，针对特征hash后变成m维向量，最后利用union-find算法计算相似性

摘要：shingling算法用于计算两个文档的相似度，例如，用于网页去重。维基百科对w-shingling的定义如下： In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequ 阅读全文

posted @ 2017-02-17 18:43 bonelee 阅读(5634) 评论(0) 推荐(0)

普林斯顿算法（1.3）并查集（union-find算法）——本质就是一个数下面的子树代表了连在一起的点

摘要：转自：https://libhappy.com/2016/03/algs-1.3/ 假设在互联网中有两台计算机需要互相通信，那么该怎么确定它们之间是否已经连接起来还是需要架设新的线路连接这两台计算机。这就是动态连通性问题。动态连通性问题在日常生活中十分常见，比如上文所说的通信网络中的连通性问题，比阅读全文

posted @ 2017-02-17 15:42 bonelee 阅读(605) 评论(0) 推荐(0)

Cuckoo hash算法分析——其根本思想和bloom filter一致增加hash函数来解决碰撞节省了空间但代价是查找次数增加

摘要：基本思想： cuckoo hash是一种解决hash冲突的方法，其目的是使用简单的hash 函数来提高hash table的利用率，同时保证O(1)的查询时间基本思想是使用2个hash函数来处理碰撞，从而每个key都对应到2个位置。插入操作如下： 1. 对key值hash，生成两个hash ke 阅读全文

posted @ 2017-02-17 14:32 bonelee 阅读(9898) 评论(0) 推荐(0)

Merkle 树——空间换时间，分而治之的hash表，通过根节点是由它的两个子节点内容的哈希值组成来校验数据完整性，定位篡改的数据位置

摘要：Merkle 树图 1.5.6.1 - Merkle 树示例默克尔树（又叫哈希树）是一种二叉树，由一个根节点、一组中间节点和一组叶节点组成。最下面的叶节点包含存储数据或其哈希值，每个中间节点是它的两个孩子节点内容的哈希值，根节点也是由它的两个子节点内容的哈希值组成。进一步的，默克尔树可以推广到阅读全文

posted @ 2017-02-17 12:12 bonelee 阅读(2585) 评论(0) 推荐(0)

图解Skip List——本质是空间换时间的数据结构，在lucene的倒排列表，bigtable，hbase，cassandra的memtable，redis中sorted set中均用到

摘要：Skip List的提出已有二十多年[Pugh, W. (1990)]，却依旧应用广泛（Redis、LevelDB等）。作为平衡树(AVL、红黑树、伸展树、树堆)的替代方案，虽然它性能不如平衡树稳定，但是在实现难度上却很有优势。它的查询、插入、删除等主要操作时间复杂度也都是Θ(lgn)，空间复杂度是阅读全文

posted @ 2017-02-17 11:41 bonelee 阅读(1130) 评论(0) 推荐(0)

LSM Tree 学习笔记——本质是将随机的写放在内存里形成有序的小memtable，然后定期合并成大的table flush到磁盘

摘要：The Sorted String Table (SSTable) is one of the most popular outputs for storing, processing, and exchanging datasets. An SSTable is a simple abstract 阅读全文

posted @ 2017-02-17 10:42 bonelee 阅读(557) 评论(0) 推荐(0)

LSM Tree 学习笔记——MemTable通常用 SkipList 来实现

摘要：最近发现很多数据库都使用了 LSM Tree 的存储模型，包括 LevelDB，HBase，Google BigTable，Cassandra，InfluxDB 等。之前还没有留意这么设计的原因，最近调研时间序列数据库的时候才发现这样设计的优势所在，所以重新又复习了一遍 LSM Tree 的原理。阅读全文

posted @ 2017-02-17 10:21 bonelee 阅读(1164) 评论(0) 推荐(0)

Raft 为什么是更易理解的分布式一致性算法——（1）Leader在时，由Leader向Follower同步日志（2）Leader挂掉了，选一个新Leader，Leader选举算法。

摘要：转自：http://www.cnblogs.com/mindwind/p/5231986.html Raft 协议的易理解性描述虽然 Raft 的论文比 Paxos 简单版论文还容易读了，但论文依然发散的比较多，相对冗长。读完后掩卷沉思觉得还是整理一下才会更牢靠，变成真正属于自己的。这里我就借助前阅读全文

posted @ 2017-02-17 09:14 bonelee 阅读(2753) 评论(1) 推荐(0)

一致性问题和Raft一致性算法——一致性问题是无法彻底解决的，可以说一个分布式系统可靠性达到99.99…%,但不能说它达到了100%

摘要：一致性问题一致性算法是用来解决一致性问题的,那么什么是一致性问题呢? 在分布式系统中,一致性问题(consensus problem)是指对于一组服务器,给定一组操作,我们需要一个协议使得最后它们的结果达成一致. 更详细的解释就是,当其中某个服务器收到客户端的一组指令时,它必须与其它服务器交流以保阅读全文

posted @ 2017-02-17 08:53 bonelee 阅读(1452) 评论(0) 推荐(0)

分布式系统的Raft算法——在失联阶段这个老Leader的任何更新都不能算commit，都回滚，接受新的Leader的新的更新意味着还是可能丢数据！！！

摘要：过去, Paxos一直是分布式协议的标准，但是Paxos难于理解，更难以实现，Google的分布式锁系统Chubby作为Paxos实现曾经遭遇到很多坑。来自Stanford的新的分布式协议研究称为Raft，它是一个为真实世界应用建立的协议，主要注重协议的落地性和可理解性。在了解Raft之前，我们阅读全文

posted @ 2017-02-17 08:46 bonelee 阅读(831) 评论(0) 推荐(0)

NFL原则告诉我们做决策的时候，试图找到一个能解决所有问题，“大而全”的方案是不存在的。我们应当找到最关心的问题，因地制宜做出选择。——聚焦目标，取舍有道！

摘要：资源匮乏原则：有限的资源无法满足无穷的需要及欲望；因此想要多一点的某件东西，意味着必须放弃一些其他的东西；因为资源匮乏，所以我们必须做出选择。 NFL原则：没有免费午餐定理(No Free Lunch)是wolpert和Macerday提出的“最优化理论的发展”之一。意思是不可能不付出就获得好处。阅读全文

posted @ 2017-02-16 20:16 bonelee 阅读(357) 评论(0) 推荐(0)

wiredtiger存储引擎介绍——本质就是LSM，当然里面也可以包含btree和列存储

摘要：见：http://www.slideshare.net/profyclub_ru/4-understanding-and-tuning-wired-tiger-the-new-high-performance-database-engine-in-mongodb-henrik-ingo-mongod 阅读全文

posted @ 2017-02-16 19:15 bonelee 阅读(877) 评论(0) 推荐(0)

Druid：一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统

摘要：转自：http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时，Druid仍能够保持100%正常阅读全文

posted @ 2017-02-16 09:45 bonelee 阅读(1560) 评论(0) 推荐(0)

ES doc_values的来源，field data——就是doc->terms的正向索引啊，不过它是在查询阶段通过读取倒排索引loading segments放在内存而得到的？

摘要：Support in the Wild: My Biggest Elasticsearch Problem at Scale Java Heap Pressure Support in the Wild: My Biggest Elasticsearch Problem at Scale Java 阅读全文

posted @ 2017-02-15 15:38 bonelee 阅读(676) 评论(0) 推荐(0)

ES doc_values介绍2——本质是field value的列存储，做聚合分析用，ES默认开启，会占用存储空间

摘要：一、doc_values介绍 doc values是一个我们再三重复的重要话题了，你是否意识到一些东西呢？搜索时，我们需要一个“词”到“文档”列表的映射排序时，我们需要一个“文档”到“词“列表的映射，换句话说，我们需要一个在倒排索引的基础上建立的“正排索引” 这里的“正排索引”结构通常在其他系统阅读全文

posted @ 2017-02-15 15:12 bonelee 阅读(6322) 评论(0) 推荐(0)

列存储压缩技巧，除公共除数或者同时减去最小数，字符串压缩的话，直接去重后用数字ID压缩

摘要：Column-store compression At a high level, doc values are essentially a serialized column-store. As we discussed in the last section, column-stores exc 阅读全文

posted @ 2017-02-15 15:01 bonelee 阅读(444) 评论(0) 推荐(0)

ES doc_values介绍——本质是field value的列存储，做聚合分析用，ES默认开启，会占用存储空间（列存储压缩技巧，除公共除数或者同时减去最小数，字符串压缩的话，直接去重后用数字ID压缩）

摘要：doc_values doc_values Doc values are the on-disk data structure, built at document index time, which makes this data access pattern possible. They sto 阅读全文

posted @ 2017-02-15 15:00 bonelee 阅读(2403) 评论(0) 推荐(0)

How to reduce Index size on disk?减少ES索引大小的一些小手段

摘要：ES索引文件瘦身总结如下：原始数据：（1）学习splunk，原始data存big string（2）原始文件还可以再度压缩倒排索引：（1）去掉不必要的倒排索引信息：例如文件位置倒排、_source和field store选择之一（2）合并倒排文件，去掉一些冗余的小文件（3）原始数据big stri 阅读全文

posted @ 2017-02-15 14:31 bonelee 阅读(1059) 评论(0) 推荐(0)

ES查看segment大小

摘要：摘自：http://www.aboutyun.com/thread-17078-1-1.html Segment MemorySegment不是file吗？segment memory又是什么？前面提到过，一个segment是一个完备的lucene倒排索引，而倒排索引是通过词典 (Term Dict 阅读全文

posted @ 2017-02-15 14:19 bonelee 阅读(8166) 评论(0) 推荐(0)

Twitter的流处理器系统Heron——升级的storm，可以利用mesos来进行资源调度

摘要：2011年，Twitter发布了开源的分布式流计算系统Storm。四年后，随着用户数量的急剧增加，Twitter每天要处理的事件已经增加到十亿以上。Storm系统应对如此庞大而复杂多样的流数据变得十分困难。为了解决该问题，Twitter公司近期开发了一套全新的流处理系统——Heron。近日，Twit 阅读全文

posted @ 2017-02-15 14:07 bonelee 阅读(585) 评论(0) 推荐(0)

揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上，这个根能立稳吗？hive又是sql的Map reduce任务拆分，底层还是依赖hbase和hdfs存储

摘要：在12月2日下午的“大数据技术与应用”分论坛的第一场演讲中，来自全球知名互联网公司——FaceBook公司的软件工程师、研发经理邵铮就带来了一颗重磅炸弹，他将为我们讲解FaceBook公司的实时数据处理分析平台的核心——Puma的演进以及未来的发展思路。 FaceBook公司自成立以来发展就非常迅猛阅读全文

posted @ 2017-02-15 12:34 bonelee 阅读(1019) 评论(0) 推荐(0)

Facebook的实时流处理技术——Scuba是Facebook的一个非常快速、分布式的内存数据库，用于实时分析和查询

摘要：Scuba，Facebook的一个非常快速、分布式的内存数据库，用于实时分析和查询。是Facebook的回归分析代码、错误报告监控、广告收入监控和性能调试的背后主力。 Facebook的实时流处理技术随着云计算大数据的发展，有越来越多的场景需要借助于实时数据处理技术，为此有很多公司开发了自己的实时阅读全文

posted @ 2017-02-15 12:29 bonelee 阅读(3272) 评论(0) 推荐(0)

孕期出血是否先兆流产——B超看婴儿是否在子宫内+hcg值是否过低孕激素不足

摘要：转自：http://blog.sina.com.cn/s/blog_4a869c130102e7nu.html 很多人都经历过孕早期阴道出血，但结局大不一样。人类受孕后，从一个单细胞逐渐发育成为一个活蹦乱跳的婴儿是一个很复杂的生理过程，首先要有健康的精子、健康的卵子才能够有健康的受精卵。受精卵在很阅读全文

posted @ 2017-02-14 16:24 bonelee 阅读(1223) 评论(0) 推荐(0)

ES里设置索引中倒排列表仅仅存文档ID——采用docs存储后可以降低pos文件和cfs文件大小

摘要：index_options index_options The index_options parameter controls what information is added to the inverted index, for search and highlighting purposes 阅读全文

posted @ 2017-02-14 14:39 bonelee 阅读(647) 评论(2) 推荐(0)

lucene IndexOptions可以设置DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS DOCS，ES里也可以设置

摘要：org.apache.lucene.index Enum Constants Enum Constant and Description DOCS_AND_FREQS Only documents and term frequencies are indexed: positions are omi 阅读全文

posted @ 2017-02-14 14:28 bonelee 阅读(2369) 评论(1) 推荐(0)

护照办理流程——依赖1、身份证（原件+复印件）；2、户口分首页（可以只有复印件）；3、户口本个人信息页（原件+复印件）；4、暂住证（原件+复印件）；5、二寸免冠照片一张（这里可以有其他选择，后面解释）；6、人民币200

摘要：转自：https://www.zhihu.com/question/21207457/answer/91446518 刚刚在京办理完护照（户口在深圳），最新最简流程~哈哈如果有北京户口就简单了，带上身份证直接去出入境大厅直接办理就OK，周一到周五不用预约，周六需要预约。不是北京户口，要分三步：办理北阅读全文

posted @ 2017-02-14 13:17 bonelee 阅读(1757) 评论(0) 推荐(0)

南充市顺庆区护照办理地点——15个工作日，必须本人到场

摘要：南充市顺庆区护照办理地点_流程_费用_所需资料_咨询电话转自：http://www.qimaren.com/huzhaobanli/sichuan/nanchong/c72.html 南充市顺庆区金泉路300号（南充市公安局出入境接待大厅）地图公交线路：11、21、26路公交，到“金泉路”下车阅读全文

posted @ 2017-02-14 12:08 bonelee 阅读(5428) 评论(0) 推荐(0)

ES索引文件和数据文件大小对比——splunk索引文件大小远小于ES，数据文件的压缩比也较ES更低，有趣的现象：ES数据文件zip压缩后大小和splunk的数据文件相当！词典文件tim/tip+倒排doc/pos和cfs文件是索引的大头

摘要：和splunk对比： ES中各个倒排索引文件的分布：测试说明：ES2.41版本，数据使用500次批量插入，每批数据都不同，大小500条，每条数据50个字段，对应的字符串使用长度为1-10个单词随机生成！阅读全文

posted @ 2017-02-14 10:44 bonelee 阅读(2422) 评论(0) 推荐(0)

Lucene4.2源码解析之fdt和fdx文件的读写(续)——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要：2 索引读取阶段当希望通过一个DocId得到Doc的全部内容，那么就需要对fdx/fdt文件进行读操作了。具体的代码在CompressingStoredFieldsReader类里面。与CompressingStoredFieldsWriter一样，这些操作都是建立在fdx/fdt文件格式理解的基阅读全文

posted @ 2017-02-13 20:14 bonelee 阅读(824) 评论(0) 推荐(0)

Lucene4.2源码解析之fdt和fdx文件的读写——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要：前言前言前言通常在搜索打分完毕后，IndexSearcher会返回一个docID序列，但是仅仅有docID我们是无法看到存储在索引中的document,这时候就需要通过docID来得到完整Document信息，这个过程就需要对fdx/fdt文件进行读操作。为了更清楚地了解fdx/fdt文件的作阅读全文

posted @ 2017-02-13 20:13 bonelee 阅读(1331) 评论(0) 推荐(0)

lucene反向索引——倒排表无论是文档号及词频，还是位置信息，都是以跳跃表的结构存在的

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html 4.2. 反向信息反向信息是索引文件的核心，也即反向索引。反向索引包括两部分，左面是词典(Term Dictionary)，右面是倒排表(Posting 阅读全文

posted @ 2017-02-13 18:08 bonelee 阅读(1802) 评论(0) 推荐(1)

lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！

摘要：4.1.3. 域(Field)的数据信息(.fdt，.fdx) 域数据文件(fdt): 真正保存存储域(stored field)信息的是fdt文件在一个段(segment)中总共有segment size篇文档，所以fdt文件中共有segment size个项，每一项保存一篇文档的域的信息对于阅读全文

posted @ 2017-02-13 18:00 bonelee 阅读(804) 评论(0) 推荐(0)

Choosing a fast unique identifier (UUID) for Lucene——有时间再看下

摘要：Most search applications using Apache Lucene assign a unique id, or primary key, to each indexed document. While Lucene itself does not require this ( 阅读全文

posted @ 2017-02-13 17:34 bonelee 阅读(469) 评论(0) 推荐(0)

Lucene核心数据结构——FST存词典，跳表存倒排或者roarning bitmap 见另外一个文章

摘要：Lucene实现倒排表没有使用bitmap，为了效率，lucene使用了一些策略，具体如下：1. 使用FST保存词典，FST可以实现快速的Seek，这种结构在当查询可以表达成自动机时(PrefixQuery、FuzzyQuery、RegexpQuery等)效率很高。(可以理解成自动机取交集)此种场景阅读全文

posted @ 2017-02-13 16:43 bonelee 阅读(11180) 评论(0) 推荐(0)

lucene正向索引（续）——域(Field)的元数据信息在.fnm里，在倒排表里，利用跳跃表，有利于大大提高搜索速度。

摘要：4.1.2. 域(Field)的元数据信息(.fnm) 一个段(Segment)包含多个域，每个域都有一些元数据信息，保存在.fnm文件中，.fnm文件的格式如下： FNMVersion 是fnm文件的版本号，对于Lucene 2.9为-2 FieldsCount 域的数目一个数组的域(Field 阅读全文

posted @ 2017-02-13 16:11 bonelee 阅读(866) 评论(0) 推荐(0)

lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中

摘要：DocStoreOffset DocStoreSegment DocStoreIsCompoundFile 对于域(Stored Field)和词向量(Term Vector)的存储可以有不同的方式，即可以每个段(Segment)单独存储自己的域和词向量信息，也可以多个段共享域和词向量，把它们存储到阅读全文

posted @ 2017-02-13 15:54 bonelee 阅读(920) 评论(0) 推荐(0)

lucene正向索引——正向信息，Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过，Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息，也包括了从Term到Document映阅读全文

posted @ 2017-02-13 15:29 bonelee 阅读(1031) 评论(0) 推荐(0)

lucene索引文件格式

摘要：学习lucene索引文件格式的目的是通过对lucene数据结构的理解，从而为lucene索引实现打下基础。索引文件的整体结构如下图，这是整个索引文件的整体结构，可以看到，实际上lucene索引保存下了相当多的东西但是，单从上面的文件罗列，很难看出来一个整体的结构，那么，接下来这张图就向我们展示阅读全文

posted @ 2017-02-13 15:21 bonelee 阅读(4373) 评论(0) 推荐(0)

深度解读Facebook刚开源的beringei时序数据库——数据压缩delta of delta+充分利用内存以提高性能

摘要：转自：https://yq.aliyun.com/topic/58?spm=5176.100239.blogcont69354.9.MLtp4T 摘要： Facebook最近开源了beringei时序数据库，其是用来解决其内部监控数据存储和查询需求的数据库，特点是读写速度快。beringei在压缩算阅读全文

posted @ 2017-02-13 10:35 bonelee 阅读(3178) 评论(0) 推荐(0)

Facebook开源时间序列内存数据库Beringei，追求极致压缩率——如果是int根据大多数时间序列中的值与相邻数据点相比并没有显著的变化，只要使用XOR将当前值与先前值进行比较，然后存储发生变化的比特。最终，该算法将整个数据集至少压缩了90%

摘要：转自：http://www.infoq.com/cn/news/2017/02/Facebook-Beringei 2017年2月3日，Facebook宣布将开源他们的高性能时序数据存储引擎Beringer。Beringei是用来解决其内部监控数据存储和查询需求的数据库，其特点是读写速度快，属于内存阅读全文

posted @ 2017-02-13 10:32 bonelee 阅读(1676) 评论(0) 推荐(1)

rethinkDB python入门

摘要：Start the server For a more detailed look, make sure to read the quickstart. $ rethinkdb Import the driver First, start a Python shell: $ python Then, 阅读全文

posted @ 2017-02-13 09:51 bonelee 阅读(1702) 评论(0) 推荐(0)

RethinkDB是什么？—— 面向文档的NOSQL数据库，MVCC+Btree索引，pushes JSON to your apps in realtime采用push思路，优化的ssd存储

摘要：RethinkDB是什么？ RethinkDB是新一代的面向文档的数据库存储管理系统，原本是MySQL中针对SSD优化的一个存储引擎，后来脱离了MySQL成为了独立的系统。数据如何存储在磁盘上？数据组织成B-Tree，且使用为rethinkdb定制的log-structured形式的存储引擎存储阅读全文

posted @ 2017-02-13 09:36 bonelee 阅读(1362) 评论(0) 推荐(0)

slplunk原始数据和索引数据大小比较

摘要：DB目录总大小：2468MB 所有buckets的meta信息在.bucketManifest文件里： id,path,"raw_size","event_count","host_count","source_count","sourcetype_count","size_on_disk",mod 阅读全文

posted @ 2017-02-09 13:37 bonelee 阅读(481) 评论(0) 推荐(0)

Poseidon 系统是一个日志搜索平台——认证看链接ppt，本质是索引的倒排列表和原始日志数据都存在HDFS，而文档和倒排的元数据都在NOSQL里，同时针对单个filed都使用了独立索引，使用MR来索引和搜索

摘要：Poseidon 系统是一个日志搜索平台，可以在百万亿条、100PB 大小的日志数据中快速分析和检索。360 公司是一个安全公司，在追踪 APT（高级持续威胁）事件，经常需要在海量的历史日志数据中检索某些信息，例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前，都是写 Ma 阅读全文

posted @ 2017-02-09 12:11 bonelee 阅读(790) 评论(0) 推荐(0)

解放你内心的自然领袖，从你的内心而非你的自我来领导你自己

摘要：了解如何解放你内心的自然领袖，从你的内心而非你的自我来领导你自己获得真正的发自内心的信心，激发忠诚当你真正实现自我价值的时候，练习自我同情激发你创造者的本性真正地享受工作和你给世界带来的价值 Michael Anderson在他的著作《以魂为中心的领导力》一书中介绍了如何通过与灵魂交流，发展阅读全文

posted @ 2017-02-09 11:54 bonelee 阅读(291) 评论(0) 推荐(0)

Twitter的支撑架构：扩展网络与存储并提供服务——架构原则：一次性将事情做对，NFL原则 LSM+B+存储替代cassandra

摘要：Twitter工程团队近期提供了Twitter核心技术的演进和扩展的详细资料，这些核心技术支撑了Twitter自营数据中心的系统架构，用于提供社会媒体服务。他们分享的关键经验包括：超越原始规格和需求进行系统架构，并在流量趋向设计容量上限时迅速做出大刀阔斧的改进；不存在所谓的“临时更改或变通方案”，因阅读全文

posted @ 2017-02-09 09:30 bonelee 阅读(415) 评论(0) 推荐(0)

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink--容错机制（ACK，RDD，基于log和状态快照），消息处理at least once，exactly once两个是关键

摘要：分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算，但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。 DAG是任务链的图形化表示，我们用它来描述流处理作业的拓扑。如下图，数据从sources流经处理任务链到sinks。单机可以运阅读全文

posted @ 2017-02-01 23:55 bonelee 阅读(8878) 评论(0) 推荐(0)

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

摘要：简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术阅读全文

posted @ 2017-02-01 22:48 bonelee 阅读(3910) 评论(0) 推荐(1)

Hive数据导入——数据存储在Hadoop分布式文件系统中，往Hive表里面导入数据只是简单的将数据移动到表所在的目录中！

摘要：转自：http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 转自：http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统阅读全文

posted @ 2017-02-01 00:13 bonelee 阅读(10586) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

02 2017 档案

公告