摘要:
1.下载nexus 2.解压,会出现两个目录,nexus-2.11.2-03是服务 sonatype-work是私有库目录 3.修改配置,在nexus-2.11.2-03/bin目录下修改nexus文件 4.修改端口,nexus-2.11.2-03/conf修改nexus.properties文件 阅读全文
摘要:
1.首先查看机器是否使用的是MegaRAID卡 2.添加 megaraid 源: 修改 /etc/apt/sources.list 在末尾添加 然后执行: 如果执行提示 GPG 错误,需要执行如下命令添加证书: 然后再次执行: 3.使用megacli命令进行一些简单的查询 <i>显示所有RAID级别 阅读全文
摘要:
参考:完全用 GNU/Linux 工作 - 29. 檢測硬碟 S.M.A.R.T. 健康狀態 1.安装 2.查看硬盘的参数,需要获得Root权限 3.如果使用下面的Python脚本来调用该命令的时候,是需要获得Root权限的 可以使用下面的方法来实现免输入密码,使用 sudo visudo 命令对/ 阅读全文
摘要:
1.首先下载Kibana 2.解压 3.修改配置,在config文件夹下面修改kibana.yml 4.启动 5.访问web 6.在Manager里面添加index,demo中的index名称叫做es 添加之后 7.在discover中可以查看数据,里面还会对top数据进行统计 8.在Dev too 阅读全文
摘要:
1.请安装好Go的环境,参考上一篇open-falcon的安装博文 2.安装 mail-provider https://github.com/open-falcon/mail-provider 安装方法 cd $GOPATH/src mkdir github.com/open-falcon/ -p 阅读全文
摘要:
1.首先你需要知道flume的http监控端口是否启动 请参考博文 Flume的监控参数 即在 http://localhost:3000/metrics 可以访问到如下内容 2.在open-falcon中安装flume监控插件,参考官方文档 http://book.open-falcon.org/ 阅读全文
摘要:
在Ubuntu下安装open-falcon和Centos下安装的方法有点区别,因为Ubuntu使用的包管理器是apt-get,而Centos下使用的是Yum,建议不要再Ubuntu下使用yum 建议自己下载源码打包二进制包来安装,因为官方给出的二进制包应该是再centos下打包的,再Ubuntu下运 阅读全文
摘要:
1.首先需要注册一个网易的邮箱,开启smtp服务,并使用其授权码 2.发送邮件的Python脚本 #!/usr/bin/python # -*- coding: UTF-8 -*- import smtplib from email.header import Header from email.m 阅读全文
摘要:
参考 flume的http监控参数说明 普通的flume启动命令 日志信息在终端输出,只有去掉这个参数,日志才能在log4j和logback中输出 如果要加上http监控的话 即加上参数,flume.monitoring.type=http 指定了Reporting的方式为http,flume.mo 阅读全文
摘要:
参考 : kafka管理器kafka-manager部署安装 下载Kafka Manager,并进行打包,由于Kafka manager是由scala写的,所以需要由sbt的支持 git clone https://github.com/yahoo/kafka-manager cd kafka-ma 阅读全文
摘要:
参考: http://www.cnblogs.com/EasonJim/p/7130171.html 安装indicator-sysmonitor sudo add-apt-repository ppa:fossfreedom/indicator-sysmonitor sudo apt-get up 阅读全文
摘要:
1. 搭建kafka的时候需要根据数据流量预估kafka集群的规模,aws为其MSK服务(aws上的托管kafka)提供了一个excel表格,可以输入参数来评估集群需要的硬件参数 https://amazonmsk.s3.amazonaws.com/MSK_Sizing_Pricing.xlsx 阅读全文
摘要:
参考 ubuntu14 手动安装sbt 1、下载sbt通用平台压缩包:sbt-0.13.5.tgz http://www.scala-sbt.org/download.html 2、建立目录,解压文件到所建立目录 $ sudo tar zxvf sbt-0.13.5.tgz -C /opt/scal 阅读全文
摘要:
参考 ubuntu16.04 配置shadowsocks及使用教程,支持chacha20-ietf-poly1305加密方式 安装shadow$ocks-libev 配置文件 内容 运行shadow$ocks Centos下安装 参考 步骤 期间遇到 configure: error: mbed T 阅读全文
摘要:
GRUB 是一个用于加载和管理系统启动的完整程序。它是Linux 发行版中最常见的 引导程序 bootloader 。引导程序是计算机启动时运行的第一个软件。 1.grub命令行模式 如果进入的grub命令行模式的话,则说明GNU grub找不到正确的引导文件,这时候可以通过命令手动来进行选择,如下 阅读全文
摘要:
参考 Kafka bootstrap-servers vs zookeeper in kafka-console-consumer 中说建议使用新版(新版本指的是kafka 0.8.0之后的版本)的 --bootstrap-server Kafka专业术语,参考 Apache kafka 工作原理介 阅读全文
摘要:
VCS >Enable Version Control Integration,然后选择git就可以了 阅读全文
摘要:
Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume是一个专门设计用来从大量的源,推送数据到Hadoop生态系统中各种各样存储系统中去的,例如HDFS和HB 阅读全文
摘要:
到elasticsearch网站下载最新版本的elasticsearch 6.2.1 https://www.elastic.co/downloads/elasticsearch 其他版本 https://www.elastic.co/cn/downloads/past-releases/elast 阅读全文
摘要:
学习的资料是官网的Programming Guide 首先是GraphX的简介 GraphX是Spark中专门负责图和图并行计算的组件。 GraphX通过引入了图形概念来继承了Spark RDD:一个连接节点和边的有向图 为了支持图计算,GraphX引入了一些算子: subgraph, joinVe 阅读全文
摘要:
首先自己造了一份简单的社交关系的图 第一份是人物数据,id和姓名,person.txt 第二份是社交关系数据,两个人的id和社交关系,social.txt 使用SparkX和GraphStream来处理数据 可视化的结果,该图数据节点数很少,本来想尝试一份百万节点的数据,结果遇到了爆内存的问题 后来 阅读全文
摘要:
使用gephi对图数据进行可视化操作,下面网址是gephi的说明文档 使用的gephi版本号:0.9.1 系统:Ubuntu 16.04 内存:8G 1.启动Gephi,在semantic web import中输入,该web接口是dbpedia的RDF格式数据,然后点击run 接下来在 图 界面中 阅读全文
摘要:
1.安装apache-airflow 1.8.0 服务器使用的是centos系统,需要安装好pip和setuptools,同时注意更新安装的版本 接下来参考安装好Airflow Airflow 1.8 工作流平台搭建 http://blog.csdn.net/kk185800961/article/ 阅读全文
摘要:
1.下载mysql的repo源 wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 2.安装mysql-community-release-el7-5.noarch.rpm包 sudo rpm -ivh mysql- 阅读全文
摘要:
安装 pip install shadow$ocks 创建文件 touch /etc/shadow$ocks.json { "server":"服務器IP或域名", "server_port":端口號, "local_address": "127.0.0.1", "local_port":1080, 阅读全文
摘要:
安装的过程请参考 Ubuntu14.04下同时安装Anaconda2与Anaconda3 启动的时候cd到$HOME/anaconda2/envs/py3k/bin下 然后记得在/etc/profile中加上 如果想安装包,直接pip install 阅读全文
摘要:
1.首先需要安装Hadoop和Hive 安装的时候参考 http://blog.csdn.net/jdplus/article/details/46493553 安装的版本是apache-hive-2.1.1-bin.tar.gz,解压到/usr/local目录下 然后在/etc/profile文件 阅读全文
摘要:
布隆过滤器的实现方法1:自己实现 参考 http://www.cnblogs.com/naive/p/5815433.html bllomFilter两个参数分别代表,布隆过滤器的大小和hash函数的个数 #coding:utf-8 #!/usr/bin/env python from bitarr 阅读全文
摘要:
1.下载 kafka和zookeeper 这里下载的是 kafka_2.10-0.10.0.0.tgz 和 zookeeper-3.4.10.tar.gz 可以在清华镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/apache/ 或者apache官网 https 阅读全文
摘要:
1.Python下安装方法 git clone --recursive https://github.com/dmlc/xgboost cd xgboost make -j4 cd python-package/ sudo python setup.py install 如果在import xgbo 阅读全文
摘要:
查看安装的库 查看过时的库 批量更新的Python脚本 更新pip 阅读全文
摘要:
Kaggle的房价数据集使用的是Ames Housing dataset,是美国爱荷华州的艾姆斯镇2006-2010年的房价 1.特征探索和分析 1.了解特征的含义 首先使用Python的pandas加载一下训练样本和测试样本,数据的格式是csv格式的,且第一列是特征的名称 查看一下特征的维度 im 阅读全文
摘要:
package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.{SQLContext, SparkSession} import or 阅读全文
摘要:
import org.apache.spark.ml.classification.RandomForestClassifier import org.apache.spark.ml.regression.RandomForestRegressor import org.apache.spark.m 阅读全文
摘要:
使用Stanford Corenlp对中文进行词性标注 语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题 添加的jar包有5个 代码 关于词性标记 动词,形容词(4种):VA,VC,VE,VV 1、谓词性形容词:VA 谓词性形 阅读全文
摘要:
1.导入JSON数据的方式有两种,一种是在web管理界面中导入,另一种是使用curl命令来导入 2.导入的时候注意格式 使用curl可以导入的格式 在web界面中可以导入的格式 不可以导入的格式 格式转换的Scala代码 导入成功将会返回,导入之后需要等上一段时间才会生成索引 注意有可能还需要在下面 阅读全文
摘要:
1.进入Solr管理界面http://localhost:8983/solr/ 可以看到Query中有若干的参数,其意义如下(参考:http://www.jianshu.com/p/3c4cae5dee8d) Solr的查询语法: Solr默认有三种查询解析器(Query Parser): Stan 阅读全文
摘要:
1.在清华开源软件镜像站或者http://www.us.apache.org/dist/ 下载Solr的安装包,我下载的是solr-6.5.1.tgz 2.解压并移动到/usr/local目录下 3.安装Solr需要安装Java环境,假设Java环境是安装好的 4.解压solr-6.5.1.tgz目 阅读全文
摘要:
1.建立TF-IDF模型 阅读全文
摘要:
spark可以使用SparkListener API在spark运行的过程中监控spark任务当前的运行状态,参考:SparkListener监听使用方式及自定义的事件处理动作 编写 MySparkAppListener package com.bigdata.spark import org.ap 阅读全文