11 2017 档案

摘要:Batch Normalization Batch Normalization是深度学习领域在2015年非常热门的一个算法,许多网络应用该方法进行训练,并且取得了非常好的效果。 众所周知,深度学习是应用随机梯度下降法对网络进行训练,尽管随机梯度下降训练神经网络非常有效,但是它有一个缺点,就是需要人为 阅读全文
posted @ 2017-11-30 19:09 bonelee 阅读(2664) 评论(0) 推荐(0) 编辑
摘要:Reviews for Endpoint Detection and Response Solutions What is Endpoint Detection and Response Solutions software? 转自:https://www.gartner.com/reviews/m 阅读全文
posted @ 2017-11-30 17:09 bonelee 阅读(1595) 评论(0) 推荐(0) 编辑
摘要:链接:http://ucys.ugr.es/jnic2016/docs/MachineLearning_LiorRokachJNIC2016.pdf https://people.eecs.berkeley.edu/~adj/publications/paper-files/SecML-MLJ201 阅读全文
posted @ 2017-11-30 15:17 bonelee 阅读(394) 评论(0) 推荐(0) 编辑
摘要:我自己的命令: server端: 配置文件dns2tcpd.conf内容: 其中xxxx.com是你注册的域名,并且设置了a的解析,见后文。 客户端: dns2tcpc -c -k fuckoff -d 1 -l 2222 -r ssh -z a.xxxxxx.com 45.77.39.243其中 阅读全文
posted @ 2017-11-30 10:13 bonelee 阅读(6104) 评论(1) 推荐(0) 编辑
摘要:DNS隧道之DNS2TCP使用心得教程 转自:http://blog.creke.net/750.html DNS2TCP是在上次DNS隧道大检阅时提到的一个DNS隧道。 在2010年6月的更新(也是迄今为止最新的更新)后,其源代码支持编译为Windows平台的可执行程序。而且此工具使用C语言开发编 阅读全文
posted @ 2017-11-30 10:10 bonelee 阅读(5351) 评论(1) 推荐(0) 编辑
摘要:github上有一堆的工具:https://github.com/search?utf8=%E2%9C%93&q=DNS+tunnel+&type= DNS隧道大检阅 研究了一天的DNS隧道,现在汇总一些关于我搜到的各种DNS隧道的信息。 1、OzymanDNS 官方网站:http://www.dn 阅读全文
posted @ 2017-11-30 10:02 bonelee 阅读(2310) 评论(1) 推荐(0) 编辑
摘要:https://doc.lagout.org/Others/Data%20Mining/Data%20Mining%20and%20Machine%20Learning%20in%20Cybersecurity%20%5BDua%20%26%20Du%202011-04-25%5D.pdf 阅读全文
posted @ 2017-11-28 19:07 bonelee 阅读(415) 评论(0) 推荐(0) 编辑
摘要:ES出现异常: failed to notify ClusterStateListenerjava.lang.IllegalStateException: environment is not locked 定位代码: 下载ES 5.5源码,在main/java/org/elasticsearch/ 阅读全文
posted @ 2017-11-28 12:28 bonelee 阅读(3121) 评论(0) 推荐(0) 编辑
摘要:自己写检测算法的时候也记得多个算法比较下 阅读全文
posted @ 2017-11-28 11:08 bonelee 阅读(2672) 评论(3) 推荐(0) 编辑
摘要:使用CNN做文本分类 from __future__ import division, print_function, absolute_import import tensorflow as tf import tflearn from tflearn.layers.core import input_data, dropout, fully_connecte... 阅读全文
posted @ 2017-11-28 10:36 bonelee 阅读(2094) 评论(1) 推荐(0) 编辑
摘要:官方参数解释: Convolution 2D tflearn.layers.conv.conv_2d (incoming, nb_filter, filter_size, strides=1, padding='same', activation='linear', bias=True, weigh 阅读全文
posted @ 2017-11-28 10:16 bonelee 阅读(6776) 评论(0) 推荐(0) 编辑
摘要:Embedding tflearn.layers.embedding_ops.embedding (incoming, input_dim, output_dim, validate_indices=False, weights_init='truncated_normal', trainable= 阅读全文
posted @ 2017-11-27 15:51 bonelee 阅读(46969) 评论(1) 推荐(1) 编辑
摘要:基本思路: 每个评论取前200个单词。然后生成词汇表,利用词汇index标注评论(对 每条评论的前200个单词编号而已),然后使用LSTM做正负评论检测。 代码解读见【【【评论】】】!embedding层本质上是word2vec!!!在进行数据降维,但是不是所有的LSTM都需要这个,比如在图像检测m 阅读全文
posted @ 2017-11-27 14:28 bonelee 阅读(5464) 评论(7) 推荐(0) 编辑
摘要:转自:https://www.zhihu.com/question/50030898/answer/235137938 如何比较Keras, TensorLayer, TFLearn ? 这三个库主要比的是API设计水平,不得不说原始的 Tensorflow API的确反人类,我承认它的完善、表达能 阅读全文
posted @ 2017-11-27 13:02 bonelee 阅读(1111) 评论(2) 推荐(0) 编辑
摘要:TensorFlow高层次机器学习API (tf.contrib.learn) 1.tf.contrib.learn.datasets.base.load_csv_with_header 加载csv格式数据 2.tf.contrib.learn.DNNClassifier 建立DNN模型(class 阅读全文
posted @ 2017-11-27 11:52 bonelee 阅读(1823) 评论(0) 推荐(0) 编辑
摘要:循环神经网络 介绍 可以在 this great article 查看循环神经网络(RNN)以及 LSTM 的介绍。 语言模型 此教程将展示如何在高难度的语言模型中训练循环神经网络。该问题的目标是获得一个能确定语句概率的概率模型。为了做到这一点,通过之前已经给出的词语来预测后面的词语。我们将使用 P 阅读全文
posted @ 2017-11-27 11:00 bonelee 阅读(2237) 评论(0) 推荐(0) 编辑
摘要:MNIST机器学习入门 这个教程的目标读者是对机器学习和TensorFlow都不太了解的新手。如果你已经了解MNIST和softmax回归(softmax regression)的相关知识,你可以阅读这个快速上手教程。 当我们开始学习编程的时候,第一件事往往是学习打印"Hello World"。就好 阅读全文
posted @ 2017-11-27 10:41 bonelee 阅读(919) 评论(0) 推荐(0) 编辑
摘要:简介 本章的目的是让你了解和运行 TensorFlow! 在开始之前, 让我们先看一段使用 Python API 撰写的 TensorFlow 示例代码, 让你对将要学习的内容有初步的印象. 这段很短的 Python 程序生成了一些三维数据, 然后用一个平面拟合它. 疑问:底层如何运作? 难道自动感 阅读全文
posted @ 2017-11-27 09:34 bonelee 阅读(4062) 评论(0) 推荐(0) 编辑
摘要:tf.placeholder(dtype, shape=None, name=None)此函数可以理解为形参,用于定义过程,在执行的时候再赋具体的值参数: dtype:数据类型。常用的是tf.float32,tf.float64等数值类型 shape:数据形状。默认是None,就是一维值,也可以是多 阅读全文
posted @ 2017-11-27 09:20 bonelee 阅读(5810) 评论(0) 推荐(0) 编辑
摘要:ES业界优秀案例汇总 携程 LinkedIn Etsy国外电商CPU(vCore) 70*32 1000*12 4200单日索引数据条数 600亿 500亿 100亿单核处理数据性能/天 2600万/vCore 416万/vCore 238万/vCore单日存储数据量 25T 500-800T 1. 阅读全文
posted @ 2017-11-25 14:20 bonelee 阅读(2290) 评论(28) 推荐(0) 编辑
摘要:http://www.nyankosama.com/2014/12/15/akka-source/ http://blog.csdn.net/aigoogle/article/details/42107709 https://my.oschina.net/twoface/blog/282622 ht 阅读全文
posted @ 2017-11-24 20:35 bonelee 阅读(1395) 评论(0) 推荐(0) 编辑
摘要:ES transport client底层是netty实现,netty本质上是异步方式,但是netty自身可以使用sync或者await(future超时机制)来实现类似同步调用! 因此,ES transport client可以同步调用也可以异步(不过底层的socket必然是异步实现)。 发送端例 阅读全文
posted @ 2017-11-24 11:51 bonelee 阅读(2336) 评论(0) 推荐(0) 编辑
摘要:io.netty.channel 摘自:https://netty.io/4.0/api/io/netty/channel/ChannelFuture.html Interface ChannelFuture io.netty.channel 摘自:https://netty.io/4.0/api/ 阅读全文
posted @ 2017-11-24 11:42 bonelee 阅读(2009) 评论(1) 推荐(0) 编辑
摘要:import tldextract def extract_domain(domain): suffix = {'.com','.la','.io', '.co', '.cn','.info', '.net', '.org','.me', '.mobi', '.us', '.biz', '.xxx', '.ca', '.co.jp', '.com.c 阅读全文
posted @ 2017-11-23 18:09 bonelee 阅读(2220) 评论(0) 推荐(0) 编辑
摘要:本文所列的所有API在ElasticSearch文档是有详尽的说明,但它的结构组织的不太好。 这篇文章把ElasticSearch API用表格的形式供大家参考。 https://www.iteblog.com/archives/2030.html 阅读全文
posted @ 2017-11-23 14:24 bonelee 阅读(252) 评论(0) 推荐(0) 编辑
摘要:Task Management API Task Management API Task Management API Task Management API The Task Management API is new and should still be considered a beta f 阅读全文
posted @ 2017-11-23 14:18 bonelee 阅读(4875) 评论(1) 推荐(0) 编辑
摘要:下面是使用神经网络进行JAVA溢出攻击代码: 如果不加min_max_scaler ,则迭代6次提前结束,准确率87%,而使用后迭代可以达到预设的30次,准确率可以达到95%。 阅读全文
posted @ 2017-11-22 23:29 bonelee 阅读(3550) 评论(2) 推荐(0) 编辑
摘要:kibanasite/elasticsearch/log-*/_field_stats?level=indices kibanasite/elasticsearch/log-*/_field_stats?level=indices kibanasite/elasticsearch/log-*/_fi 阅读全文
posted @ 2017-11-22 20:09 bonelee 阅读(1054) 评论(1) 推荐(0) 编辑
摘要:神经网络为什么要归一化 1.数值问题。 无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也并不是那么困难。因为tansig的非线性区间大约在[-1.7,1.7]。意味着要使神经元有效,tansig( w1*x1 + w2*x2 +b) 里的 w1 阅读全文
posted @ 2017-11-22 19:45 bonelee 阅读(19613) 评论(1) 推荐(2) 编辑
摘要:转自:http://blog.csdn.net/jeryjeryjery/article/details/72649320 这两天用Python来实现手写数字识别,刚开始用原始数据进行训练,结果预测结果都是同一个类别,全部是对应数字1。正确率也只有10%左右,下面是代码及运行结果截图: 预测结果都是 阅读全文
posted @ 2017-11-22 19:39 bonelee 阅读(5687) 评论(1) 推荐(1) 编辑
摘要:先看代码(sklearn的示例代码): [python] view plain copy from sklearn.neural_network import MLPClassifier X = [[0., 0.], [1., 1.]] y = [0, 1] clf = MLPClassifier( 阅读全文
posted @ 2017-11-22 19:27 bonelee 阅读(5120) 评论(0) 推荐(0) 编辑
摘要:另一起问题是24G内存的系统,空闲内存已经不到50M 1. 确认该系统的版本是64位 # uname -a Linux gxgd-nms-app 2.6.18-194.el5xen #1 SMP Tue Mar 16 22:01:26 EDT 2010 x86_64 x86_64 x86_64 GN 阅读全文
posted @ 2017-11-22 18:14 bonelee 阅读(2716) 评论(0) 推荐(0) 编辑
摘要:SWAP的罪与罚 发表于2012-11-08 说个案例:一台Apache服务器,由于其MaxClients参数设置过大,并且恰好又碰到访问量激增,结果内存被耗光,从而引发SWAP,进而负载攀升,最终导致宕机。 正所谓:SWAP,性能之大事,死生之地,存亡之道,不可不察也。 哪些工具可以监测SWAP 阅读全文
posted @ 2017-11-22 18:05 bonelee 阅读(7065) 评论(0) 推荐(1) 编辑
摘要:输入: 输出: 函数说明: 获取连通分量(nx.connected_component_subgraphs(G),返回的是列表,但是元素是图,这些分量按照节点数目从大到小排列,所以第一个就是最大的连通分量。 阅读全文
posted @ 2017-11-22 12:26 bonelee 阅读(1220) 评论(0) 推荐(0) 编辑
摘要:ARIMA模型实例讲解:时间序列预测需要多少历史数据? from:https://www.leiphone.com/news/201704/6zgOPEjmlvMpfvaB.html ARIMA模型实例讲解:时间序列预测需要多少历史数据? from:https://www.leiphone.com/ 阅读全文
posted @ 2017-11-22 11:39 bonelee 阅读(14000) 评论(1) 推荐(0) 编辑
摘要:来自:http://www.secrepo.com Network MACCDC2012 - Generated with Bro from the 2012 dataset A nice dataset that has everything from scanning/recon through 阅读全文
posted @ 2017-11-21 20:32 bonelee 阅读(1761) 评论(1) 推荐(0) 编辑
摘要:什么是Referer? Referer 是 HTTP 请求header 的一部分,当浏览器(或者模拟浏览器行为)向web 服务器发送请求的时候,头信息里有包含 Referer 。比如我在www.sojson.com 里有一个www.baidu.com 链接,那么点击这个www.baidu.com , 阅读全文
posted @ 2017-11-21 20:22 bonelee 阅读(6834) 评论(0) 推荐(1) 编辑
摘要:这里介绍三种列举某域名下所有二级域名的方法 1、命令行下列举此方法好像是hoky很久以前写的,不过原文步骤有点乱,我又重新整理了一下,以我们小组的站为例 如图: 2、利用Demon(一个列举某域名的所有二级域名的工具)Demon,最新版本为0.2,作者是ZwelL 很简单的功能,根据提供的域名尝试搜 阅读全文
posted @ 2017-11-21 20:20 bonelee 阅读(4333) 评论(0) 推荐(0) 编辑
摘要:摘自:http://blog.csdn.net/baskbeast/article/details/51218777 可以看 《统计学习方法》里的介绍 举一个日常生活中的例子,我们希望根据当前天气的情况来预测未来天气情况。一种办法就是假设这个模型的每个状态都只依赖于前一个的状态,即马尔科夫假设,这个 阅读全文
posted @ 2017-11-21 15:37 bonelee 阅读(13413) 评论(2) 推荐(0) 编辑
摘要:set(可变集合)与frozenset(不可变集合)的区别:set无序排序且不重复,是可变的,有add(),remove()等方法。既然是可变的,所以它不存在哈希值。基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交集), difference(差 阅读全文
posted @ 2017-11-20 17:41 bonelee 阅读(2006) 评论(0) 推荐(0) 编辑
摘要:摘自:https://zhidao.baidu.com/question/1694626564301467468.html火眼,APT威胁下快速成长 FireEye的兴起开始于2012年,这时段正好迎上APT(Advanced Persistent Threat,高级持续性威胁)猖獗。 APT是一种 阅读全文
posted @ 2017-11-20 16:50 bonelee 阅读(2305) 评论(1) 推荐(0) 编辑
摘要:http://www.freebuf.com/ https://www.seceye.cn/ https://zhuanlan.zhihu.com/c_118578260 https://www.easyaq.com/samesource/360.shtml http://bobao.360.cn/ 阅读全文
posted @ 2017-11-20 12:02 bonelee 阅读(365) 评论(5) 推荐(0) 编辑
摘要:默认的当路径一长就难看得出奇。 我的设置: export PS1="|\W$>\[\e[0m\]" 最后效果就是|目录名$> 参考:https://www.cnblogs.com/kevingrace/p/5985970.html 阅读全文
posted @ 2017-11-19 19:58 bonelee 阅读(358) 评论(0) 推荐(0) 编辑
摘要:该域名还会向多个超长域名做渗出,且域名采用了 DGA 生成算法,通过 DNS 解析时渗出数据。 部分生成域名如下: sajajlyoogrmkjlkmosbxowcrmwlvajdkbtbjoylypkoldjntglcoaskskwfjcolqlmcriqctjrhsltakoxnnmtlvdpd 阅读全文
posted @ 2017-11-17 10:53 bonelee 阅读(1815) 评论(0) 推荐(0) 编辑
摘要:# -*- coding:utf-8 -*- import sys import re import numpy as np from sklearn.externals import joblib import csv import matplotlib.pyplot as plt import os from sklearn.feature_extraction.text import C... 阅读全文
posted @ 2017-11-17 09:37 bonelee 阅读(3576) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/u012162613/article/details/45920827 1.流形学习的概念 流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在 阅读全文
posted @ 2017-11-17 09:17 bonelee 阅读(132127) 评论(0) 推荐(2) 编辑
摘要:训练代码(scala) import org.apache.spark.mllib.classification.{NaiveBayes,NaiveBayesModel} import org.apache.spark.mllib.linalg.Vectors import org.apache.s 阅读全文
posted @ 2017-11-15 23:46 bonelee 阅读(1133) 评论(0) 推荐(0) 编辑
摘要:每个Elasticsearch节点内部都维护着多个线程池,如index、search、get、bulk等,用户可以修改线程池的类型和大小,线程池默认大小跟CPU逻辑一致 一、查看当前线程组状态 curl -XGET 'http://localhost:9200/_nodes/stats?pretty 阅读全文
posted @ 2017-11-15 19:46 bonelee 阅读(19538) 评论(1) 推荐(0) 编辑
摘要:索引模板 索引模板 扩容设计 » 索引模板 Elasticsearch 不要求你在使用一个索引前创建它。 对于日志记录类应用,依赖于自动创建索引比手动创建要更加方便。 Logstash 使用事件中的时间戳来生成索引名。 默认每天被索引至不同的索引中,因此一个 @timestamp 为 2014-10 阅读全文
posted @ 2017-11-15 09:16 bonelee 阅读(2414) 评论(2) 推荐(0) 编辑
摘要:各种机器学习的应用场景分别是什么?例如,k近邻,贝叶斯,决策树,svm,逻辑斯蒂回归和最大熵模型。 k近邻,贝叶斯,决策树,svm,逻辑斯蒂回归和最大熵模型,隐马尔科夫,条件随机场,adaboost,em 这些在一般工作中,分别用到的频率多大?一般用… k近邻,贝叶斯,决策树,svm,逻辑斯蒂回归和 阅读全文
posted @ 2017-11-14 18:51 bonelee 阅读(11763) 评论(0) 推荐(0) 编辑
摘要:见原文,仅仅摘录部分:https://www.elastic.co/guide/cn/elasticsearch/guide/current/_preventing_combinatorial_explosions.html 。。。 图 42. Build full depth tree 用真实点的 阅读全文
posted @ 2017-11-14 15:22 bonelee 阅读(1997) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/pipisorry/article/details/41957763 文本特征提取 词袋(Bag of Words)表征 文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长 阅读全文
posted @ 2017-11-12 12:29 bonelee 阅读(3696) 评论(0) 推荐(0) 编辑
摘要:import re import numpy as np from sklearn import cross_validation from sklearn import datasets from sklearn import svm from sklearn.externals import joblib from sklearn.metrics import classification... 阅读全文
posted @ 2017-11-11 13:20 bonelee 阅读(732) 评论(1) 推荐(0) 编辑
摘要:总结:1. map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮) = {去皮苹果,去皮梨子} 其中: “去皮”函数的类型为:A => B 2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。 {苹果,梨子}.flatMap(切碎) 阅读全文
posted @ 2017-11-10 14:30 bonelee 阅读(15739) 评论(0) 推荐(1) 编辑
摘要:一个向量(1.0,0.0,3.0)它有2中表示的方法 密集:[1.0,0.0,3.0] 其和一般的数组无异 稀疏:(3,[0,2],[1.0,3.0]) 其表示的含义(向量大小,序号,值) 序号从0开始 本地向量和矩阵 本地向量(Local Vector)存储在单台机器上,索引采用0开始的整型表示, 阅读全文
posted @ 2017-11-10 13:08 bonelee 阅读(3144) 评论(1) 推荐(0) 编辑
摘要:转自:http://www.cnblogs.com/canyangfeixue/p/7227998.html 对于威胁检测算法使用神经网络训练有用!!!TODO待实验 结果如下: 阅读全文
posted @ 2017-11-10 11:46 bonelee 阅读(1522) 评论(2) 推荐(0) 编辑
摘要:ES 5.3以后出的新功能。测试demo如下: 下载ES 5.5版本,然后分别本机创建2个实例,配置如下: 再创建一个实例用于跨集群搜索,配置如下: 然后写入测试数据 es_data.json: 插入一条数据到9200机器: 然后写入测试数据 es_data2.json: 同理再插入一条数据到920 阅读全文
posted @ 2017-11-10 10:58 bonelee 阅读(3502) 评论(2) 推荐(0) 编辑
摘要:管道里的主要概念 MLlib提供标准的接口来使联合多个算法到单个的管道或者工作流,管道的概念源于scikit-learn项目。 1.数据框:机器学习接口使用来自Spark SQL的数据框形式数据作为数据集,它可以处理多种数据类型。比如,一个数据框可以有不同的列存储文本、特征向量、标签值和预测值。 2 阅读全文
posted @ 2017-11-09 16:53 bonelee 阅读(2942) 评论(2) 推荐(0) 编辑
摘要:from sklearn.feature_extraction.text import CountVectorizer texts=["dog cat fish","dog cat cat","fish bird", 'bird'] cv = CountVectorizer() cv_fit=cv.fit_transform(texts) print(cv.get_feature_names... 阅读全文
posted @ 2017-11-09 11:57 bonelee 阅读(1377) 评论(0) 推荐(0) 编辑
摘要:样本示意,为kdd99数据源: 代码: 结果: 阅读全文
posted @ 2017-11-09 11:21 bonelee 阅读(4349) 评论(0) 推荐(0) 编辑
摘要:注意:仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定 需要使用pandas get_dummies搞定 例如: Using the get_dummies will create a new column for every unique string in a certain colum 阅读全文
posted @ 2017-11-08 20:06 bonelee 阅读(4212) 评论(1) 推荐(0) 编辑
摘要:Scala: import org.apache.spark.ml.linalg.Vectors val data = Seq( (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0), (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 阅读全文
posted @ 2017-11-08 17:54 bonelee 阅读(7215) 评论(0) 推荐(0) 编辑
摘要:from pyspark import SparkContext, SQLContext from pyspark.ml import Pipeline from pyspark.ml.classification import DecisionTreeClassifier from pyspark.ml.feature import StringIndexer, VectorIndexer f... 阅读全文
posted @ 2017-11-08 14:20 bonelee 阅读(2408) 评论(4) 推荐(0) 编辑
摘要:本文档将介绍:如何通过Linux审计系统auditd监测WebShell执行系统命令的行为。 测试环境:CentOS7.0_x64 auditd简介 Linux审计系统提供了一种跟踪系统上与安全相关的信息的方法。基于预先配置的规则,审核生成日志条目以记录尽可能多的关于系统上发生的事件信息。 audi 阅读全文
posted @ 2017-11-08 12:02 bonelee 阅读(2069) 评论(2) 推荐(0) 编辑
摘要:另一位对AI表现出极大兴趣的演讲嘉宾,就是短篇科幻小说《折叠北京》的作者:郝景芳。 演讲一开始她就提到了测试AI的三个问题: 第一个测试题,如果哥伦布没有发现新大陆对中国哪个菜系影响最大? 第二个测试题,她说没想到今天这么冷,她希望你如何回复它? 第三个测试题,明年可以学英语,也可以学编程,你会选择 阅读全文
posted @ 2017-11-08 09:15 bonelee 阅读(535) 评论(0) 推荐(0) 编辑
摘要:“杨子见歧路而哭之”的例子:杨子看到有一只羊走失了,他走到了分叉的地方,他不知道羊在哪一条路上,这个时候他就不能够决定,觉得很悲伤,因为看起来唯一的方法,就是你必须先去走一条路,然后再走另外一条路。 阅读全文
posted @ 2017-11-08 09:11 bonelee 阅读(3322) 评论(0) 推荐(0) 编辑
摘要:代码如下,测试发现,是否对输入数据进行归一化/标准化对于结果没有影响: 输出样例: 输入数据样例(已经提取了特征): 参考:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html#s 阅读全文
posted @ 2017-11-07 14:59 bonelee 阅读(2341) 评论(4) 推荐(1) 编辑
摘要:cat /etc/*-release OR lsb_release -d 阅读全文
posted @ 2017-11-03 16:38 bonelee 阅读(4386) 评论(0) 推荐(0) 编辑
摘要:Feature Extraction Feature Extraction converts vague features in the raw data into concrete numbers for further analysis. In this section, we introduc 阅读全文
posted @ 2017-11-03 14:21 bonelee 阅读(953) 评论(0) 推荐(0) 编辑
摘要:见 http://www.infoq.com/cn/articles/deep-learning-time-series-anomaly-detection 但是不够详细 阅读全文
posted @ 2017-11-03 11:18 bonelee 阅读(9278) 评论(0) 推荐(0) 编辑
摘要:基于机器学习的web异常检测 from: https://jaq.alibaba.com/community/art/show?articleid=746 Web防火墙是信息安全的第一道防线。随着网络技术的快速更新,新的黑客技术也层出不穷,为传统规则防火墙带来了挑战。传统web入侵检测技术通过维护规 阅读全文
posted @ 2017-11-03 11:08 bonelee 阅读(3225) 评论(0) 推荐(0) 编辑
摘要:用机器学习检测异常点击流 用机器学习检测异常点击流 本文内容是我学习ML时做的一个练手项目,描述应用机器学习的一般步骤。该项目的目标是从点击流数据中找出恶意用户的请求。点击流数据长下图这样子,包括请求时间、IP、平台等特征: 该项目从开始做到阶段性完成,大致可分为两个阶段:算法选择和工程优化。算法选 阅读全文
posted @ 2017-11-03 09:43 bonelee 阅读(34049) 评论(2) 推荐(3) 编辑
摘要:给定数据集 x(1),x(2),..,x(m),我们假使数据集是正常的,我们希望知道新的数据 xtest 是不 是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测 试数据的位置告诉我们其属于一组数据的可能性 p(x)。 高斯分布 高斯分布,也称为正态分布。回顾高斯分布的 阅读全文
posted @ 2017-11-03 09:27 bonelee 阅读(2861) 评论(1) 推荐(0) 编辑
摘要:https://wenku.baidu.com/view/ee9d9800cdbff121dd36a32d7375a417866fc131.html 使用kmeans算法做流量异常检测 明确指出数据预处理需要规范化 例如网络流量异常检测方法,对网络流量样本数据进行归一化和均值化处理,得到网络流量样本 阅读全文
posted @ 2017-11-03 09:01 bonelee 阅读(10451) 评论(0) 推荐(0) 编辑
摘要:kmeans demo 摘自:http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#module-pyspark.mllib.feature pyspark.mllib.feature module Python pack 阅读全文
posted @ 2017-11-02 20:11 bonelee 阅读(2614) 评论(1) 推荐(0) 编辑
摘要:For (much) more power and flexibility, use a dedicated spellchecking library like PyEnchant. There's a tutorial, or you could just dive straight in: P 阅读全文
posted @ 2017-11-02 12:10 bonelee 阅读(18020) 评论(0) 推荐(1) 编辑
摘要:公用函数的放到了 common.py 文件中. 通过 --py-files 可以在pyspark中可以顺利导入: pyspark --py-files lib/common.py > import common OK 阅读全文
posted @ 2017-11-02 12:09 bonelee 阅读(2864) 评论(0) 推荐(0) 编辑
摘要:load方法: a=sc.textFile("feature/all.txt")a.collect() [u"('one', 1)", u"('two', 1)", u"('two', 1)", u"('three', 1)", u"('three', 1)", u"('three', 1)"] 阅读全文
posted @ 2017-11-01 17:38 bonelee 阅读(11741) 评论(0) 推荐(0) 编辑
摘要:过滤了出现次数大于2的结果。 阅读全文
posted @ 2017-11-01 09:34 bonelee 阅读(1067) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示