03 2017 档案

摘要:import json from random import sample, randint from uuid import uuid4 def gen_random_words(): with open("D:\\exp\\test_data\\dictionary.txt") as f: words = [word.strip() for word in f] ... 阅读全文
posted @ 2017-03-31 14:59 bonelee 阅读(384) 评论(1) 推荐(0) 编辑
摘要:原生API提供的匹配筛选、排序和分组配置和SQL语法提供的WHERE、ORDER BY和GROUP BY语句的效果是一样的,你可以对匹配结果进行你需要的筛选、排序和分组匹配。例如,如果你要搜索MySQL中1990年代的书籍,并按照价格排序,可以这么写: 上述代码不仅一目了然而且也展示了通用API的使 阅读全文
posted @ 2017-03-31 14:39 bonelee 阅读(985) 评论(0) 推荐(0) 编辑
摘要:Coreseek 4.1 参考手册 / Sphinx 2.0.1-beta Sphinx--强大的开源全文检索引擎,Coreseek--免费开源的中文全文检索引擎 版权 © 2001-2011 Andrew Aksyonoff 版权 © 2008-2011 Sphinx Technologies I 阅读全文
posted @ 2017-03-31 14:36 bonelee 阅读(3178) 评论(0) 推荐(0) 编辑
摘要:query = "(user can be admin)" -> check all fields for the given words. If all words are found in a combination of any fields, document is a match.quer 阅读全文
posted @ 2017-03-31 14:06 bonelee 阅读(281) 评论(3) 推荐(0) 编辑
摘要:发布时间:2016-01-12 作者:启明星辰 伴随着大数据时代的到来,启明星辰于2015年12月25日正式对外发布了面向企业级客户、融合大数据技术的新一代日志分析与审计平台(以下简称TSOC-SA3),以满足需要分析天量安全日志的政企客户的需求。该平台结合当前主流的大数据技术,并采用具有自主知识产 阅读全文
posted @ 2017-03-31 10:20 bonelee 阅读(3339) 评论(0) 推荐(0) 编辑
摘要:Evernote服务 我们的服务由以下几个组件组成。 分片(NoteStore) 分片是Evernote服务的核心单元,用于存储用户的笔记。每个分片最多可以支撑30万个Evernote用户,并包含了如下几个组件。 基于Tomcat的前端Web服务层:Evernote客户端会连接到这个层。 数据存储层 阅读全文
posted @ 2017-03-31 10:13 bonelee 阅读(369) 评论(1) 推荐(0) 编辑
摘要:大数据信息安全日志审计分析方法 1.海量数据采集。大数据采集过程的主要特点和挑战是并发数高,因此采集数据量较大时,分析平台的接收性能也将面临较大挑战。大数据审计平台可采用大数据收集技术对各种类型的数据进行统一采集,使用一定的压缩及加密算法,在保证用户数据隐私性及完整性的前提下,可以进行带宽控制。 2 阅读全文
posted @ 2017-03-31 10:05 bonelee 阅读(6793) 评论(0) 推荐(0) 编辑
摘要:日志服务(Log Service,Log)是针对日志场景的一站式服务,在阿里巴巴集团内部被广泛使用。用户无需开发就能快捷完成日志生命周期中采集、消费、投递以及查询功能。 日志服务当前提供如下功能 日志中枢(LogHub):通过Agent/API实时收集、订阅、消费日志数据 日志投递(LogShipp 阅读全文
posted @ 2017-03-29 15:51 bonelee 阅读(3954) 评论(1) 推荐(0) 编辑
摘要:Database Firewall The most impressive feature of MySQL security is the Database Firewall. The firewall works with a fairly simple process. You record 阅读全文
posted @ 2017-03-29 11:57 bonelee 阅读(407) 评论(0) 推荐(0) 编辑
摘要:转自百度百科 数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。 数据库安全风险包括:刷库、拖库、撞库。 数据库安全攻击手段包括:SQL注入攻击。 数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏 阅读全文
posted @ 2017-03-29 11:36 bonelee 阅读(3624) 评论(0) 推荐(0) 编辑
摘要:转自: http://www.cnblogs.com/forfuture1978/p/3945755.html 好好看看吧 倒排列表信息中词典相关存储的最关键格式 占倒排列表中文件大小的多数 我们来看最复杂的部分,就是Term Dictionary和Term Index文件,Term Diction 阅读全文
posted @ 2017-03-27 15:30 bonelee 阅读(1137) 评论(0) 推荐(0) 编辑
摘要:超线程是Intel 所研发的一种技术,于2002年发布。超线程的英文是HT技术,全名为Hyper-Threading,中文又名超线程。超线程技术原先只应用于Intel Xeon处理器中,当时称为Super-Threading。之后陆续应用在Pentium 4中,将技术主流化。 超线程是Intel 所 阅读全文
posted @ 2017-03-27 11:13 bonelee 阅读(1133) 评论(0) 推荐(0) 编辑
摘要:转自infoQ! 根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作,甚至有一些只需要SQL。 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calci 阅读全文
posted @ 2017-03-27 10:16 bonelee 阅读(28980) 评论(0) 推荐(0) 编辑
摘要:归并线程配置 segment 归并的过程,需要先读取 segment,归并计算,再写一遍 segment,最后还要保证刷到磁盘。可以说,这是一个非常消耗磁盘 IO 和 CPU 的任务。所以,ES 提供了对归并线程的限速机制,确保这个任务不会过分影响到其他任务。 在 5.0 之前,归并线程的限速配置  阅读全文
posted @ 2017-03-25 16:55 bonelee 阅读(14504) 评论(0) 推荐(1) 编辑
摘要:Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎,适用于交互式分析查询,可支持众多的数据源,包括 HDFS,RDBMS,KAFKA 等,而且提供了非常友好的接口开发数据源连接器。 介绍 Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinato 阅读全文
posted @ 2017-03-25 11:09 bonelee 阅读(5838) 评论(0) 推荐(0) 编辑
摘要:然后CPU占用接近100%了。 阅读全文
posted @ 2017-03-25 10:46 bonelee 阅读(582) 评论(0) 推荐(0) 编辑
摘要:store NO 压缩后的原始数据 原始数据大小 索引大小 索引时间 单词搜索时间 266 791 594 176 0.2 文件组成见后 运行forceMerge(3)后 merge的本质是减少cfx文件 变为pos和doc 索引大小 .doc .pos tip/tim cfs 仅1个 506 13 阅读全文
posted @ 2017-03-24 18:02 bonelee 阅读(418) 评论(0) 推荐(0) 编辑
摘要:最新的lucene 3.0的field是这样的: Field options for indexingIndex.ANALYZED – use the analyzer to break the Field’s value into a stream of separate tokens and m 阅读全文
posted @ 2017-03-23 12:02 bonelee 阅读(894) 评论(0) 推荐(0) 编辑
摘要:摘自:http://makble.com/what-is-term-vector-in-lucene given a document, find all its terms and the positions information of these terms. Index tell us wh 阅读全文
posted @ 2017-03-23 11:54 bonelee 阅读(977) 评论(0) 推荐(0) 编辑
摘要:为了进一步探讨这种批处理和实时处理有效整合在同一系统的架构,我们将在今天的文章中分析Lambda三层结构模型的适用场景,同时暴露出Lambda架构一个最明显的问题:它需要维护两套分别跑在批处理和实时计算系统上面的代码,而且这两套代码需要产出一致的结果。根据对此缺点的分析,我们引出当时还在Linked 阅读全文
posted @ 2017-03-23 09:44 bonelee 阅读(8958) 评论(0) 推荐(0) 编辑
摘要:Lucene 的四大索引查询 清单1:使用布尔操作符 Java代码 //Test boolean operator blic void testOperator(String indexDirectory) throws Exception{ Directory dir = FSDirectory. 阅读全文
posted @ 2017-03-22 20:33 bonelee 阅读(1163) 评论(0) 推荐(0) 编辑
摘要:package hello; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; imp... 阅读全文
posted @ 2017-03-22 16:38 bonelee 阅读(546) 评论(0) 推荐(0) 编辑
摘要:package hello; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.nio.file.Paths; import java.util.HashMap; import java.util.Map.E... 阅读全文
posted @ 2017-03-22 15:03 bonelee 阅读(467) 评论(0) 推荐(0) 编辑
摘要:词典位置:https://raw.githubusercontent.com/jonbcard/scrabble-bot/master/src/dictionary.txt 阅读全文
posted @ 2017-03-22 15:01 bonelee 阅读(621) 评论(0) 推荐(0) 编辑
摘要:摘自:http://www.infoq.com/cn/articles/nosql-injections-analysis JSON查询以及数据格式 PHP编码数组为原生JSON。嗯,数组示例如下: 将由PHP编码为以下JSON格式: 如果一个PHP具有登录机制,由用户浏览器通过HTTP POST( 阅读全文
posted @ 2017-03-22 09:17 bonelee 阅读(707) 评论(0) 推荐(0) 编辑
摘要:转自:https://github.com/erikfrey/themas/blob/master/src/set_intersection/intersect.hpp 阅读全文
posted @ 2017-03-21 14:42 bonelee 阅读(469) 评论(0) 推荐(0) 编辑
摘要:http://bbs.sjtu.edu.cn/bbstcon,board,Algorithm,reid,1225812893.html 阅读全文
posted @ 2017-03-21 12:07 bonelee 阅读(1667) 评论(0) 推荐(0) 编辑
摘要:例子: mapping这里: 难道是使用和lucene一样的??? New就是设置索引目录和mapping。 index文档实现: 其中,NewDocument实现: MappingDocument实现: 我晕,看来bleve真的是和lucene设计一样!也有_all属性。 难道后面倒排列表也会使用 阅读全文
posted @ 2017-03-20 23:06 bonelee 阅读(1685) 评论(1) 推荐(0) 编辑
摘要:摘自:http://www.01happy.com/golang-oop/ golang中并没有明确的面向对象的说法,实在要扯上的话,可以将struct比作其它语言中的class。 类声明 1 2 3 4 5 type Poem struct { Title string Author string 阅读全文
posted @ 2017-03-20 22:53 bonelee 阅读(816) 评论(0) 推荐(0) 编辑
摘要:2.2 插值查找 这是一种和二分比较相似的查找的算法, 不过不同的是, 对于分布比较均匀的较大的数组, 插值查找有时能够一次就搜索到位.. 为什么能够这么快呢`? 看网上没有什么关于这种算法的描述, 我就来描述一下吧. 首先要知道一点, 这种搜索方式只能够针对顺序表进行,, 再一个要理解顺序表中的一 阅读全文
posted @ 2017-03-20 20:21 bonelee 阅读(1098) 评论(0) 推荐(0) 编辑
摘要:下面的文章专门针对搜索引擎里的倒排列表 sorted sets研究交集算法,思路类似快排,非常值得一看 www.cs.ucr.edu/~stelo/cpm/cpm04/25_Baeza-yates.pdf 合并sorted sequence算法: https://github.com/rklaehn 阅读全文
posted @ 2017-03-20 19:39 bonelee 阅读(432) 评论(2) 推荐(0) 编辑
摘要:lucene中用的是ConjunctionScorer ,大致过程是每条倒排链不断的推进到小于等于当前最大节点的位置。当然实现细节还是很丰富的,作者很细心的把过程都列出来了,建议顺着读一边。这里摘抄部分: 首先把倒排链按第一个next排序: 查看0~7的倒排链的第一个和最后一个是否相同,不同就开始找 阅读全文
posted @ 2017-03-20 16:13 bonelee 阅读(1262) 评论(0) 推荐(0) 编辑
摘要:from:http://www.cnblogs.com/jcli/p/3984809.html 如果待合并的两个倒排表数据量很大, 但是交集很少时, 会是什么情况呢? 1 2 [1, 2, 3, 4, 5, ... 10001, 10005] [1, 10001, 10008] 如果对这两个做合并操 阅读全文
posted @ 2017-03-20 16:11 bonelee 阅读(2890) 评论(0) 推荐(0) 编辑
摘要:离线方式在Ubuntu 18.04 上安装Docker 操作系统需求:Ubuntu 18.04 Docker deb 包下载地址: https://download.docker.com/linux/ubuntu/dists/bionic/pool/stable/amd64/ 下载三个文件: con 阅读全文
posted @ 2017-03-19 23:02 bonelee 阅读(1475) 评论(0) 推荐(0) 编辑
摘要:见:http://blog.csdn.net/dingsai88/article/details/52638758 阅读全文
posted @ 2017-03-19 22:54 bonelee 阅读(2154) 评论(0) 推荐(0) 编辑
摘要:searcher.Search(types.SearchRequest{Text: "百度中国"}) 索引器接受查找请求: lookup函数实现: 阅读全文
posted @ 2017-03-19 22:19 bonelee 阅读(352) 评论(0) 推荐(0) 编辑
摘要:之前的文章分析过,接受索引请求处理的代码在segmenter_worker.go里: 上面代码的作用就是在统计词频和单词位置(注意:tag也是作为搜索的单词,不过其词频是0,而无法参与tf-idf计算),并封装为indexerRequest,发送给engine.indexerAddDocumentC 阅读全文
posted @ 2017-03-19 21:27 bonelee 阅读(257) 评论(0) 推荐(0) 编辑
摘要:defer Go语言中有种不错的设计,即延迟(defer)语句,你可以在函数中添加多个defer语句。当函数执行到最后时,这些defer语句会按照逆序执行,最后该函数返回。特别是当你在进行一些打开资源的操作时,遇到错误需要提前返回,在返回前你需要关闭相应的资源,不然很容易造成资源泄露等问题。如下代码 阅读全文
posted @ 2017-03-19 21:05 bonelee 阅读(2829) 评论(0) 推荐(0) 编辑
摘要:前面说过,接收indexerRequest的代码在index_worker.go里: 持久化的代码:engine/persistent_storage_worker.go 可以看到,倒排索引存在DB里是丑陋的,直接set(key, value) 其中,key是倒排列表的关键字,而value是doc 阅读全文
posted @ 2017-03-19 20:46 bonelee 阅读(386) 评论(0) 推荐(0) 编辑
摘要:数组切片内容复制 转自:http://studygolang.com/articles/4560 用于将内容从一个数组切片复制到另一个数组切片。如果加入的两个数组切片不一样大,就会按其中较小的那个数组切片的元素个数进行复制。 阅读全文
posted @ 2017-03-19 20:05 bonelee 阅读(8508) 评论(0) 推荐(0) 编辑
摘要:使用libmongoc,参考:http://mongoc.org/libmongoc/current/mongoc_gridfs_t.html 阅读全文
posted @ 2017-03-17 20:29 bonelee 阅读(1394) 评论(0) 推荐(0) 编辑
摘要:fmemopen()函数打开一个内存流,使你可以读取或写入由buf指定的缓冲区。其返回FILE*fp就是打开的内存流,虽然仍使用FILE指针进行访问,但其实并没有底层文件(并没有磁盘上的实际文件,因为打开的内存流fp是在内存中的),所有的I/O都是通过在缓冲区与主存(就是内存)之间来回传送字节来完成 阅读全文
posted @ 2017-03-17 19:30 bonelee 阅读(5366) 评论(2) 推荐(0) 编辑
摘要:安装教程:https://mongodb.github.io/mongo-cxx-driver/mongocxx-v3/installation/ (1) “initializer_list” file not found http://stackoverflow.com/questions/194 阅读全文
posted @ 2017-03-15 16:49 bonelee 阅读(2497) 评论(0) 推荐(0) 编辑
摘要:何为赴美生子诚实签? 赴美生子诚实签是指赴美生子家庭在申请美国签证时,如实跟美国大使馆签证官说是去美国生孩子的。但是拿到的签证,仍然属于B1/B2商务/旅游签证类别。 从2013年,尤其是2015年3月份美国联邦调查局查封非法月子中心后,仍有孕妈持旅游签证而实际来美生子,入境时被查出怀孕而遭到遣返, 阅读全文
posted @ 2017-03-15 13:14 bonelee 阅读(1105) 评论(0) 推荐(0) 编辑
摘要:美国留学申请:留学生证明存款的常见问题。不管留学生申请哪个国家留学,都会涉及到存款证明问题,这主要是证明你有足够的资金在国外生活以及承担学费,如果你不能提交有效的证明将会影响到留学申请。下面小编就带您一起简单的了解一下美国留学申请存款证明的常见问题。 1、什么是存款证明 存款证明是指银行为存款人出具 阅读全文
posted @ 2017-03-15 11:47 bonelee 阅读(942) 评论(0) 推荐(0) 编辑
摘要:摘自:https://www.zhihu.com/question/26933442/answer/34797301 更新了!~更新了!稍微写的更详细一点。我觉得这样应该能懂了。 请专家指正。下面论述是我个人的理解。这里是谈量子计算所以和纠缠瞬间塌缩关系不大。(当然我们也知道不能超光速传递信息。) 阅读全文
posted @ 2017-03-15 09:31 bonelee 阅读(7715) 评论(0) 推荐(0) 编辑
摘要:Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问。Cloudera Impala也将使用Parquet作为底层的存储格式。在很多大数据的应用场景下面,比如电信行业,具有一定规则的数据,字段很多,但是每次查询仅仅针对 阅读全文
posted @ 2017-03-14 12:09 bonelee 阅读(1591) 评论(1) 推荐(0) 编辑
摘要:Mozilla、谷歌、微软和苹果已经决定开发一种面向Web的二进制格式。该格式名为WebAssembly,可以作为任何编程语言的编译目标,使应用程序可以运行在浏览器或其它代理中。 几年前,我们在InfoQ上讨论过面向Web的通用字节码的优点(见《讨论:我们是否需要一种通用的Web字节码?》),概括了 阅读全文
posted @ 2017-03-14 11:35 bonelee 阅读(1876) 评论(0) 推荐(0) 编辑
摘要:TRIZ意译为发明问题的解决理论。TRIZ理论成功地揭示了创造发明的 内在规律和原理,着力于澄清和强调系统中存在的矛盾,其目标是完全解决矛盾,获得最终的理想解。它不是采取折衷或者妥协的做法,而且它是基于技术的发展演 化规律研究整个设计与开发过程, 而不再是随机的行为。实践证明,运用TRIZ理论,可大 阅读全文
posted @ 2017-03-10 14:41 bonelee 阅读(1952) 评论(1) 推荐(0) 编辑
摘要:searcher.IndexDocument(0, types.DocumentIndexData{Content: "此次百度收购将成中国互联网最大并购"}) engine.go中的源码实现: 而其中: 将请求发送给segmenterChannel,其定义: 而接受请求处理的代码在segmente 阅读全文
posted @ 2017-03-09 23:46 bonelee 阅读(498) 评论(0) 推荐(0) 编辑
摘要:第一步先下载源码,解压后 ./dist/configure --enable-cxx编译,然后make, make install --enable-cxx To build the Berkeley DB C++ API, enter --enable-cxx as an argument to 阅读全文
posted @ 2017-03-09 10:43 bonelee 阅读(936) 评论(0) 推荐(0) 编辑
摘要:功能 列出.o .a .so中的符号信息,包括诸如符号的值,符号类型及符号名称等。所谓符号,通常指定义出的函数,全局变量等等。 使用 nm [option(s)] [file(s)] 有用的options: -A 在每个符号信息的前面打印所在对象文件名称; -C 输出demangle过了的符号名称; 阅读全文
posted @ 2017-03-09 10:18 bonelee 阅读(29987) 评论(0) 推荐(0) 编辑
摘要:本文实例讲述了Go语言的管道Channel用法。分享给大家供大家参考。具体分析如下: channel 是有类型的管道,可以用 channel 操作符 <- 对其发送或者接收值。 ch <- v // 将 v 送入 channel ch。 v := <-ch // 从 ch 接收,并且赋值给 v。 ( 阅读全文
posted @ 2017-03-08 23:04 bonelee 阅读(2847) 评论(0) 推荐(0) 编辑
摘要:能不能把数据暴力的刷到硬盘上,当然是可以的,mongodb给我们提供了fsync+lock机制就能满足我们提的需求。 fsync+lock首先会把缓冲区数据暴力刷入硬盘,然后给数据库一个写入锁,其他实例的写入操作全部被阻塞,直到fsync +lock释放锁为止。 这里就不测试了。 加锁: db.ru 阅读全文
posted @ 2017-03-08 17:39 bonelee 阅读(2318) 评论(0) 推荐(0) 编辑
摘要:Compression Compression maximizes the storage capacity of Cassandra nodes by reducing the volume of data on disk and disk I/O, particularly for read-d 阅读全文
posted @ 2017-03-08 17:07 bonelee 阅读(1197) 评论(0) 推荐(0) 编辑
摘要:MongoDB 3.0 WiredTiger Compression and Performance One of the most exciting developments over the lifetime of MongoDB must be the inclusion of the Wir 阅读全文
posted @ 2017-03-08 17:00 bonelee 阅读(3073) 评论(0) 推荐(0) 编辑
摘要:结果: 最后补充: cassandra的update和mongo的upsert效果一样!如果where的条件不满足,则会insert into! 见:http://stackoverflow.com/questions/17348558/does-an-update-become-an-implie 阅读全文
posted @ 2017-03-08 11:46 bonelee 阅读(2548) 评论(1) 推荐(0) 编辑
摘要:第4步:特征工程 或许比选择算法更重要的是正确选择表示数据的特征。从上面的列表中选择合适的算法是相对简单直接的,然而特征工程却更像是一门艺术。 主要问题在于我们试图分类的数据在特征空间的描述极少。利如,用像素的灰度值来预测图片通常是不佳的选择;相反,我们需要找到能提高信噪比的数据变换。如果没有这些数 阅读全文
posted @ 2017-03-08 09:43 bonelee 阅读(8338) 评论(0) 推荐(0) 编辑
摘要:总而言之,我们可以通过问自己算法需要解决什么问题,进而发现算法的正确分类。 上面这张图包含了一些我们还没有讨论的技术术语: 分类(Classification):当数据被用来预测一个分类,监督学习也被称为分类。这是一个例子当指定一张相作为“猫”或“狗”的图片。当只有两种选择时,称为二类(two-cl 阅读全文
posted @ 2017-03-08 09:42 bonelee 阅读(1944) 评论(0) 推荐(0) 编辑
摘要:在北京很多人都为何时拿到公积金卡纠结,下面介绍一下。 在北京很多人都为何时拿到公积金卡纠结,下面介绍一下。 在北京很多人都为何时拿到公积金卡纠结,下面介绍一下。 在北京很多人都为何时拿到公积金卡纠结,下面介绍一下。 在北京很多人都为何时拿到公积金卡纠结,下面介绍一下。 工具/原料 银行卡 公积金 工 阅读全文
posted @ 2017-03-07 22:04 bonelee 阅读(1008) 评论(0) 推荐(0) 编辑
摘要:转自:http://yanyiwu.com/work/2015/01/04/Haystack.html 一篇14页的论文Facebook-Haystack, 看完之后我的印象里就四句话: 因为【传统文件系统的弊端】 因为【缓存无法解决长尾问题】 所以【多个图片信息(Needle)存在同一个文件(Su 阅读全文
posted @ 2017-03-07 19:56 bonelee 阅读(2197) 评论(2) 推荐(1) 编辑
摘要:一、HDFS的高可用性 1.概述 本指南提供了一个HDFS的高可用性(HA)功能的概述,以及如何配置和管理HDFS高可用性(HA)集群。本文档假定读者具有对HDFS集群的组件和节点类型具有一定理解。有关详情,请参阅Apache的HDFS的架构指南。 http://hadoop.apache.org/ 阅读全文
posted @ 2017-03-07 19:36 bonelee 阅读(1896) 评论(0) 推荐(0) 编辑
摘要:demo如下: python代码如下: Collection type A collection column is declared using the collection type, followed by another type, such as int or text, in angle 阅读全文
posted @ 2017-03-07 18:00 bonelee 阅读(2638) 评论(0) 推荐(0) 编辑
摘要:Blob type The Cassandra blob data type represents a constant hexadecimal number defined as 0[xX](hex)+ where hex is a hexadecimal character, such as [ 阅读全文
posted @ 2017-03-07 17:23 bonelee 阅读(2554) 评论(0) 推荐(0) 编辑
摘要:Quick installation of cython: Step 1: Update system: Step 2: Install: cython Ater updaing the OS run following command to install the packae: 阅读全文
posted @ 2017-03-07 16:49 bonelee 阅读(3475) 评论(0) 推荐(1) 编辑
摘要:python 版本为2.7 mongodb版本2.6.5 使用mongodb存储文件,可以使用两种方式,一种是像存储普通数据那样,将文件转化为二进制数据存入mongodb,另一种使用gridfs,咱们先来说说第一种 先读取文件内容,然后塞进bson.binary.Binary对象里,最后像平常那样写 阅读全文
posted @ 2017-03-07 11:03 bonelee 阅读(17166) 评论(0) 推荐(1) 编辑
摘要:转自:http://www.ctolib.com/topics-43840.html 转自:http://www.ctolib.com/topics-43840.html 1、前期准备 通过 pip 或 easy_install 安装了 pymongo 之后, 就能通过 Python 调教 mong 阅读全文
posted @ 2017-03-07 10:38 bonelee 阅读(3640) 评论(0) 推荐(0) 编辑
摘要:Kubernetes 是来自 Google 云平台的开源容器集群管理系统。基于 Docker 构建一个容器的调度服务。该系统可以自动在一个容器集群中选择一个工作容器供使用。其核心概念是 Container Pod。 首先,为什么要用Kubernetes? 使用一个工具先要梳理下使用这个工具的目标,我 阅读全文
posted @ 2017-03-07 10:10 bonelee 阅读(1003) 评论(0) 推荐(0) 编辑
摘要:CTO要具备的素质 CTO到底要不要写代码,应该具备什么样的素质呢?我个人感觉CTO真是可以不写代码,但是意思是,你有更重要的事情要去做,比如要具备下图中的这些素质。 1. CTO是技术战略的主导者 CTO的这些素质中,最基本是要有技术战略。比如说,编程语言选Java还是其他的语言,当系统做到一定程 阅读全文
posted @ 2017-03-07 09:51 bonelee 阅读(509) 评论(0) 推荐(0) 编辑
摘要:打开BDB中某个索引中的数据库代码: 注意:同一个db file中可能有多个database! 这样就和 /usr/local/BerkeleyDB.6.1/bin/db_dump your_btree_db_filename 结果一样了,dump结果如下所示: 顺便补充,查看一个db中有多少数据库 阅读全文
posted @ 2017-03-06 16:26 bonelee 阅读(1349) 评论(0) 推荐(0) 编辑
摘要:AWS CTO Werner Vogels在AWS re:Invent 2014大会的第二场主题演讲上公布了两个新服务和一系列新的实例,两个新服务都相当令人瞩目:第一个宣布的新服务是Amazon EC2 Container Service,跟Docker紧密联合的管理服务,令人兴奋,不过不是本篇报道 阅读全文
posted @ 2017-03-06 09:52 bonelee 阅读(8728) 评论(2) 推荐(0) 编辑
摘要:Welcome to TextTest.org! TextTest is an open source tool for text-based functional testing. This means running a program in lots of different ways fro 阅读全文
posted @ 2017-03-06 09:28 bonelee 阅读(546) 评论(0) 推荐(0) 编辑
摘要:关于golang.org/x包问题 由于谷歌被墙,跟谷歌相关的模块无法通过go get来下载,解决方法: git clone https://github.com/golang/net.git $GOPATH/src/github.com/golang/net git clone https://g 阅读全文
posted @ 2017-03-04 23:09 bonelee 阅读(602) 评论(0) 推荐(0) 编辑
摘要:Golang开发环境搭建-Vim篇 转自:http://tonybai.com/2014/11/07/golang-development-environment-for-vim/ 虽说sublimetext3+gosublime+gocode是目前较为 流行的Golang开发环境组合,但作为一名V 阅读全文
posted @ 2017-03-04 10:02 bonelee 阅读(9757) 评论(0) 推荐(0) 编辑
摘要:4 down vote accepted You misunderstood what \xhh does in Python strings. Using \x notation in Python strings is just syntax to produce certain codepoi 阅读全文
posted @ 2017-03-03 15:51 bonelee 阅读(8288) 评论(0) 推荐(0) 编辑
摘要:一、概述 一、概述 GridFS是基于mongodb存储引擎是实现的“分布式文件系统”,底层基于mongodb存储机制,和其他本地文件系统相比,它具备大数据存储的多个优点。GridFS适合存储超过16MB的大型文件,不过16M数据在当今互联网时代,已经不足为奇。我们可以使用GridFS构建大规模的“ 阅读全文
posted @ 2017-03-03 12:18 bonelee 阅读(12994) 评论(0) 推荐(2) 编辑
摘要:Query String Query The query language query allows humans to describe complex queries using a simple syntax. Terms Plain terms without any other synta 阅读全文
posted @ 2017-03-03 11:17 bonelee 阅读(580) 评论(0) 推荐(0) 编辑
摘要:UEBA and Machine Learning - Download Free Guide for CISOs‎ Adinfo.niara.com/UEBA/Guide-For-CISOs‎ Learn about machine learning based user and entity b 阅读全文
posted @ 2017-03-02 20:22 bonelee 阅读(6062) 评论(0) 推荐(0) 编辑
摘要:python berkeley 操作 先到http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index-082944.html 下载6.1版本的,6.2版本py目前的库不支持 安 阅读全文
posted @ 2017-03-02 17:15 bonelee 阅读(589) 评论(0) 推荐(0) 编辑
摘要:介绍 我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888/arti 阅读全文
posted @ 2017-03-02 15:35 bonelee 阅读(2103) 评论(0) 推荐(0) 编辑
摘要:五、Tindex 数果智能根据开源的方案自研了一套数据存储的解决方案,该方案的索引层通过改造Lucene实现,数据查询和索引写入框架通过扩展Druid实现。既保证了数据的实时性和指标自由定义的问题,又能满足大数据量秒级查询的需求,系统架构如下图,基本实现了文章开头提出的几个目标。 (点击放大图像) 阅读全文
posted @ 2017-03-02 15:07 bonelee 阅读(2226) 评论(0) 推荐(1) 编辑
摘要:转自:http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_con 阅读全文
posted @ 2017-03-02 15:05 bonelee 阅读(3893) 评论(0) 推荐(0) 编辑
摘要:首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。 其实默认为3个副本已经够用了,设置太多也没什么用。 一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文 阅读全文
posted @ 2017-03-01 17:46 bonelee 阅读(10669) 评论(1) 推荐(0) 编辑
摘要:《实时分析系统(HIVE/HBASE/IMPALA)浅析》《MPP DB 是 大数据实时分析系统 未来的选择吗?》《一套数据,多种引擎(impala/Hive/kylin)》《一套数据,多种引擎续 两种数据格式(Parquet/ORCfile)浅析》有兴趣可以看看。 阅读全文
posted @ 2017-03-01 17:14 bonelee 阅读(216) 评论(0) 推荐(0) 编辑
摘要:转自:http://data.qq.com/article?id=817 三、Hermes设计概要 架构描述 系统核心进程均采用分散化设计,根据业务发展需求,可随意扩缩容机器; 周期性数据直接通过tdw处理落地到分布式文件系统; 实时数据加载采用先落地本地磁盘,最终落地到分布式文件系统,最终都由调度 阅读全文
posted @ 2017-03-01 16:57 bonelee 阅读(829) 评论(2) 推荐(0) 编辑
摘要:对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。 对于hive主要针对的是 阅读全文
posted @ 2017-03-01 11:54 bonelee 阅读(7248) 评论(0) 推荐(0) 编辑
摘要:Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,使您可以使用现有的商业智能工具经济高效地轻松分析您的所有数据。从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 TB 1,000 USD (PB 级),成本不到传统解决方案的十分之一。客户通常进行 3 倍压缩, 阅读全文
posted @ 2017-03-01 11:35 bonelee 阅读(4235) 评论(0) 推荐(0) 编辑
摘要:为什么会有HybridDB的诞生?它经历了怎样的研发历程?它的应用场景和情况是怎样的?带着这些问题,InfoQ对阿里云的数据库专家兼Postgres中国社区/中国用户会主席萧少聪先生进行了采访,以下文字整理自采访文稿。 业界早期使用数据时,尤其是OLTP场景下,通常选择非分布式的关系型数据库,如My 阅读全文
posted @ 2017-03-01 11:24 bonelee 阅读(8309) 评论(0) 推荐(0) 编辑
摘要:12 月 9 日,阿里云宣布数据库产品 HybridDB 正式商业化。 HybridDB(ApsaraDB HybridDB)是一款在线 MPP 大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下 阅读全文
posted @ 2017-03-01 11:00 bonelee 阅读(2383) 评论(0) 推荐(0) 编辑
摘要:RightScale最近发布了他们的年度云报告(RightScale 2017云现状报告,RightScale 2017 State of the Cloud Report),这份报告包括了云计算在采用和实际使用方面的现状和趋势,并且与去年的结果进行了对比。 我们提取了这个调查报告的部分要点: 私有 阅读全文
posted @ 2017-03-01 09:59 bonelee 阅读(535) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示