06 2017 档案
摘要:人类是怎么生成文档的呢?LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示: 然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某
阅读全文
摘要:2、资源记录定义(RR definitions) 2.1 格式 后面分析报文的时候详细解释。 2.2 类型值(TYPE values) 类型主要用在资源记录中,注意下面的值是QTYPE的一个子集。 类型 值和含义 A 1 a host address NS 2 an authoritative na
阅读全文
摘要:PAC学习框架 转自:http://www.cnblogs.com/alphablox/p/5935826.html PAC学习框架是机器学习的基础。它主要用来回答以下几个问题: 什么问题是可以高效学习的? 什么问题本质上就难以学习? 需要多少实例才能完成学习? 是否存在一个通用的学习模型? PAC
阅读全文
摘要:http://www.ijrter.com/papers/volume-2/issue-4/dns-tunneling-detection.pdf 《DNS Tunneling Detection》In this paper we have presented a method of the DNS
阅读全文
摘要:http://xuewen.cnki.net/DownloadArticle.aspx?filename=BMKJ201104017&dbtype=CJFD《浅析基于DNS协议的隐蔽通道及监测技术》DNS隐蔽通道监测主要采用特征匹配和流量异常检测这两种技术。3.1 特征匹配技术特 征 匹 配 技 术
阅读全文
摘要:DNS同时占用UDP和TCP端口53是公认的,这种单个应用协议同时使用两种传输协议的情况在TCP/IP栈也算是个另类。但很少有人知道DNS分别在什么情况下使用这两种协议。 先简单介绍下TCP与UDP。 TCP是一种面向连接的协议,提供可靠的数据传输,一般服务质量要求比较高的情况,使用这个协议。UDP
阅读全文
摘要:DNS隧道工具使用 http://www.freebuf.com/sectool/112076.html http://netsec.ccert.edu.cn/zhengming/2011/11/01/%E8%BD%AC%E8%BD%BD%EF%BC%9Adns-tunnel%E7%9A%84%E5
阅读全文
摘要:DNS tunnel的原理及实战 摘自:http://netsec.ccert.edu.cn/zhengming/2011/11/01/%E8%BD%AC%E8%BD%BD%EF%BC%9Adns-tunnel%E7%9A%84%E5%8E%9F%E7%90%86%E5%8F%8A%E5%AE%9E
阅读全文
摘要:摘自:http://www.freebuf.com/sectool/112076.html DNS Tunneling,是隐蔽信道的一种,通过将其他协议封装在DNS协议中传输建立通信。因为在我们的网络世界中DNS是一个必不可少的服务,所以大部分防火墙和入侵检测设备很少会过滤DNS流量,这就给DNS作
阅读全文
摘要:DDoS(Distributed Denial of Service,分布式拒绝服务)攻击的主要目的是让指定目标无法提供正常服务,甚至从互联网上消失,是目前最强大、最难防御的攻击之一。 1.1. SYN Flood SYN Flood是互联网上最经典的DDoS攻击方式之一,最早出现于1999年左右,
阅读全文
摘要:在过去,很多防火墙对于DDoS攻击的检测一般是基于一个预先设定的流量阈值,超过一定的阈值,则会产生告警事件,做的细一些的可能会针对不同的流量特征设置不同的告警曲线,这样当某种攻击突然出现的时候,比如SYN flood,此时网络中SYN的报文会超过阈值,说明发生了SYN flood攻击。但是当网络中的
阅读全文
摘要:见:https://www.leiphone.com/news/201608/IWvc75oJglAIsDvJ.html TODO 待好好细看
阅读全文
摘要:转自:http://www.airghc.top/2016/11/10/Dection-DDos/ 最近研究了一篇论文,关于检测DDos攻击,使用了深度学习中 栈式自编码的算法,现在简要介绍一下内容论文下载 讨论班讲解pdf-by airghc ppt DDOS: Distributed Denia
阅读全文
摘要:摘要深度学习当前在NLP领域发展也相当快,翻译,问答,摘要等基本都被深度学习占领了。 本文给出基于深度学习的中文分词实现,借助大规模语料,不需要构造额外手工特征,在2014年人民日报语料上取得97.5%的准确率。模型基本是参考论文:http://www.aclweb.org/anthology/N1
阅读全文
摘要:深度学习实战篇-基于RNN的中文分词探索 近年来,深度学习在人工智能的多个领域取得了显著成绩。微软使用的152层深度神经网络在ImageNet的比赛上斩获多项第一,同时在图像识别中超过了人类的识别水平。百度在中文语音识别上取得了97%的准确率,已经超过了人类的识别能力。 随着深度学习在越来越多的领域
阅读全文
摘要:摘自:http://blog.csdn.net/heyongluoyao8/article/details/48636251 不同于传统的FNNs(Feed-forward Neural Networks,前向反馈神经网络),RNNs引入了定向循环,能够处理那些输入之间前后关联的问题。定向循环结构如
阅读全文
摘要:一些源码:https://github.com/elbaulp/MafDet System that aims to detect and mitigate DDoS attacks using Machine Learning techniques & SDN.https://github.com
阅读全文
摘要:DDos攻击本质上是时间序列数据,t+1时刻的数据特点和t时刻强相关,因此用HMM或者CRF来做检测是必然!——和一个句子的分词算法CRF没有区别!注:传统DDos检测直接基于IP数据发送流量来识别,通过硬件防火墙搞定。大数据方案是针对慢速DDos攻击来搞定。难点:在进行攻击的时候,攻击数据包都是经
阅读全文
摘要:什么是私有密钥密码技术 私有密钥(Symmetric Key),又叫对称密钥。密钥加密算法采用同一把密钥进行加密和解密。它的优点是加密和解密速度非常快,但密钥的分发和管理比较困难。信息的发送者和接收者必须明确同一把密钥。因此,必须进行密钥交流,这通常需要其他更安全的信道来传送密钥。另外,每一对用户都
阅读全文
摘要:摘自:https://www.zhihu.com/question/35866596/answer/139485548 用一个活生生的例子来说明条件随机场的,十分的通俗易懂!原文在这里 [Introduction to Conditional Random Fields] 假设你有许多小明同学一天内
阅读全文
摘要:摘自:https://www.zhihu.com/question/20962240/answer/64187492 隐形马尔可夫模型,英文是 Hidden Markov Models,所以以下就简称 HMM。既是马尔可夫模型,就一定存在马尔可夫链,该马尔可夫链服从马尔可夫性质:即无记忆性。也就是说
阅读全文
摘要:摘自:https://www.zhihu.com/question/27976634 简单说一下为什么要用EM算法 现在一个班里有50个男生,50个女生,且男生站左,女生站右。我们假定男生的身高服从正态分布 ,女生的身高则服从另一个正态分布: 。这时候我们可以用极大似然法(MLE),分别通过这50个
阅读全文
摘要:摘自:https://www.zhihu.com/question/21094489/answer/86273196 什么是SVM? 当然首先看一下wiki. Support Vector Machines are learning models used for classification: w
阅读全文
摘要:线性分类器: 首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线) 假如说,我们令黑色的点 = -1, 白色的点 = +1,直线f(x) = w.x + b,这儿的x、w是向量,其实写
阅读全文
摘要:Kd-Tree,即K-dimensional tree,是一棵二叉树,树中存储的是一些K维数据。在一个K维数据集合上构建一棵Kd-Tree代表了对该K维数据集合构成的K维空间的一个划分,即树中的每个结点就对应了一个K维的超矩形区域(Hyperrectangle)。 在介绍Kd-tree的相关算法前,
阅读全文
摘要:摘自:http://www.wengweitao.com/ti-du-xia-jiang-fa.html 梯度下降法(Gradient Descent)是一种常见的最优化算法,用于求解函数的最大值或者最小值。 梯度下降 在高数中,我们求解一个函数的最小值时,最常用的方法就是求出它的导数为0的那个点,
阅读全文
摘要:用户搜索意图的理解及其难点解析 搜索引擎涉及的技术非常的繁复,既有工程架构方面的,又有算法策略方面的。综合来讲,一个搜索引擎的技术构建主要包含三大部分: (点击放大图像) 我们今天主要探讨其中的 Query Understanding,即对 query 的理解。对 query 的理解, 换句话说就是
阅读全文
摘要:时序数据是一个写多读少的场景,对时序数据库以及数据存储方面做了论述,数据查询和聚合运算同样是时序数据库必不可少的功能之一。如何支持在秒级对上亿数据的查询分组聚合运算成为了时序数据库产品必须要面对的挑战。 本文会从时序数据库的查询以及聚合运算角度展开,最后会从如何解决时序数据的查询问题入手深入分析。
阅读全文
摘要:摘自:http://www.infoq.com/cn/news/2017/06/freewheel-experience-on-go Go语言是FreeWheel公司目前主要力推的一个方向,在其看来,面向服务的架构的大环境中,Go非常适合做一些功能相对独立、功能比较明确的微服务的语言。在结合已有的各
阅读全文
摘要:摘自:https://github.com/cockroachdb/cockroach/blob/master/docs/design.md CockroachDB is a distributed SQL database. The primary design goals are scalabi
阅读全文
摘要:我们如何对信息流进行排序? 在引入排序算法之前,信息流的组成非常简单:收集所有由你的关注对象在你最后一次登录Twitter之后发送的推文,再将它们按照时间倒序显示出来。这个看起来很简单,但要为数以亿计的Twitter用户提供这种稳定的体验对我们来说是一个巨大的挑战,它对我们的基础设施和运维能力提出了
阅读全文
摘要:无损压缩 无损压缩是说被压缩的数据和解压后的数据完全一样,不存在精度的损失。对数据的压缩说到底是对数据规律性的总结。时序数据的规律可以总结为两点:1、timestamp 稳定递增、2、数值有规律性,变化稳定。下面来举个例子。 上图是一组时序数据,如果我们一行一行的看感觉压缩有点困难,但如果我们一列一
阅读全文
摘要:例子:添加11.3的官方软件和升级源zypper ar http://download.opensuse.org/distribution/11.3/repo/oss/ mainzypper ar http://download.opensuse.org/distribution/11.3/repo
阅读全文
摘要:从bulk.txt文件中按行读取,然后bulk导入。首先通过调用client.prepareBulk()实例化一个BulkRequestBuilder对象,调用BulkRequestBuilder对象的add方法添加数据。实现代码:
阅读全文
摘要:ES transport client bulk insert 传输(transport)客户端 TransportClient利用transport模块远程连接一个elasticsearch集群。它并不加入到集群中,只是简单的获得一个或者多个初始化的transport地址,并以轮询的方式与这些地址
阅读全文
摘要:As you can see, hadoop fsck and hadoop fs -dus report the effective HDFS storage space used, i.e. they show the “normal” file size (as you would see o
阅读全文
摘要:sudo pip install -U pyyaml nltk 搞不定,必须代理: Installing via a proxy web server¶ If your web connection uses a proxy server, you should specify the proxy
阅读全文
摘要:注意:同时将原始数据放在DB里,ES里通过doc id去DB里获取。_all搜索时候使用cross_fields。.tim文件较大,可以采用降低shard个数来瘦身。 总之,上述设置后可以将es的索引数据磁盘占用降低为原始数据的50%以内。
阅读全文
摘要:结果: total size, ['.doc', '.pos', '.tim', '.tip', '.dvd', '.dvm', '.fdt', '.fdx', '.fnm', '.nvd', '.nvm']1317898783 , 151402808 , 49137369 , 301883415
阅读全文
摘要:什么是时序数据库 先来介绍什么是时序数据。时序数据是基于时间的一系列的数据。在有时间的坐标中将这些数据点连成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。 时序数据库就是存放时序数据的数据库,并且需要支持时序数据的快速写入、持久化、
阅读全文