2018年2月7日

离线环境下进行pip包安装

摘要: 内网服务器不能上网,但是需要在上面安装python-package 通过另外一台能上网的主机B 1. 下载需要离线安装的Packages 在B上执行如下命令: 安装单个Package 安装多个Packages 2. 将下载好的Packages拷贝至内网服务器 使用scp、sftp等方式将下载好的Pa 阅读全文

posted @ 2018-02-07 10:33 running_wolf 阅读(250) 评论(0) 推荐(0) 编辑

2018年1月12日

pip安装Mysql-python报错EnvironmentError: mysql_config not found

摘要: 如下图,安装Mysql-python报错EnvironmentError: mysql_config not found 经过验证,可通过以下方式解决: 从官网下载mysql安装,成功之后输入PATH="$PATH":/usr/local/mysql/bin配置环境变量,再执行pip install 阅读全文

posted @ 2018-01-12 15:13 running_wolf 阅读(255) 评论(0) 推荐(0) 编辑

docker安装centos6

摘要: 1,获取Centos镜像>docker pull centos:centos6 2,查看镜像运行情况>docker images centos 3,在容器下运行 shell bash>docker run -i -t centos:centos6 /bin/bash 4,停止容器>docker st 阅读全文

posted @ 2018-01-12 10:57 running_wolf 阅读(236) 评论(0) 推荐(0) 编辑

airflow的安装

摘要: 1.环境准备1.1 安装环境1.2 创建用户2.安装airflow2.1 安装python2.2 安装pip2.3 安装数据库2.4 安装airflow2.4.1 安装主模块2.4.2 安装数据库模块、密码模块2.5 配置airflown2.5.1 设置环境变量2.5.2 修改配置文件3. 启动ai 阅读全文

posted @ 2018-01-12 10:13 running_wolf 阅读(1641) 评论(0) 推荐(0) 编辑

2017年8月22日

[scikit-learn] 特征二值化

摘要: 1.首先造一个测试数据集 这里我们把 pet、age、salary 都看做类别特征,所不同的是 age 和 salary 都是数值型,而 pet 是字符串型。我们的目的很简单: 把他们全都二值化,进行 one-hot 编码 2. 对付数值型类别变量 对 age 进行二值化很简单,直接调用 OneHo 阅读全文

posted @ 2017-08-22 14:32 running_wolf 阅读(1662) 评论(0) 推荐(0) 编辑

2017年8月17日

教你用java统计目录下所有文档的词频

摘要: 本文是统计目录下所有文档的词频top10,非单个文档,包含中文和英文。 直接上代码: 注:分隔符正则匹配需要根据各自的情况进行定义。 当然数据量比较大的时候需要采用大数据计算,比如mapreduce,那样的话会简单很多。 阅读全文

posted @ 2017-08-17 16:33 running_wolf 阅读(1335) 评论(0) 推荐(0) 编辑

提交任务到spark(以wordcount为例)

摘要: 1、首先需要搭建好hadoop+spark环境,并保证服务正常。本文以wordcount为例。 2、创建源文件,即输入源。hello.txt文件,内容如下: 注:以空格为分隔符 3、然后执行如下命令: hadoop fs -mkdir -p /Hadoop/Input(在HDFS创建目录) hado 阅读全文

posted @ 2017-08-17 11:14 running_wolf 阅读(24321) 评论(0) 推荐(0) 编辑

2017年8月16日

数据仓库中历史拉链表的更新方法

摘要: 在之前介绍过数据仓库中的历史拉链表《极限存储–历史拉链表》, 使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。 本文中假设: CREATE TABLE orders ( orderid INT, createtime STRING, modifiedti 阅读全文

posted @ 2017-08-16 16:39 running_wolf 阅读(2031) 评论(0) 推荐(0) 编辑

如何用java实现数据脱敏

摘要: 数据脱敏是什么意思呢? 数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏,数据库安全技术之一。 比 阅读全文

posted @ 2017-08-16 16:22 running_wolf 阅读(6512) 评论(0) 推荐(0) 编辑

SpringBoot + Jpa(Hibernate) 架构基本配置

摘要: 1、基于springboot-1.4.0.RELEASE版本测试 2、springBoot + Hibernate + Druid + Mysql + servlet(jsp) 一、maven的pom文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 阅读全文

posted @ 2017-08-16 15:43 running_wolf 阅读(1677) 评论(0) 推荐(0) 编辑

导航