摘要: 数据仓库设计方案 一.概述 数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。数仓分层的主要原因: 清晰数据 阅读全文
posted @ 2019-06-11 19:57 王马扎 阅读(16975) 评论(0) 推荐(6) 编辑
摘要: neo4j python pandas py2neo v3 利用pandas将excel中数据抽取,以三元组形式加载到neo4j数据库中构建相关知识图谱 Neo4j知识图谱构建 1.运行环境: python3.6.5 windows10 具体包依赖可以参考文件requirements.txt 2.P 阅读全文
posted @ 2018-12-04 12:18 王马扎 阅读(17975) 评论(15) 推荐(0) 编辑
摘要: Python 处理excel的第三包有很多,比如XlsxWriter、xlrd&xlwt、OpenPyXL、Microsoft Excel API等,最后综合考虑选用了Pandas。 Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标 阅读全文
posted @ 2018-11-21 10:52 王马扎 阅读(6133) 评论(0) 推荐(0) 编辑
摘要: 1 # -*- coding: utf-8 -*- 2 3 from py2neo import Graph 4 import json 5 import re 6 7 8 class Neo4jToJson(object): 9 """知识图谱数据接口""" 10 11 def __init__(self): 12 ... 阅读全文
posted @ 2018-11-07 10:56 王马扎 阅读(5421) 评论(0) 推荐(0) 编辑
摘要: 1.git地址 https://github.com/onesuper/pandasticsearch 2.建立连接 [注] 实测python3 会遇到编码问题 3.修改源码 将~/anaconda3/lib/python3.7/site packages/pandasticsearch/clien 阅读全文
posted @ 2019-11-21 19:11 王马扎 阅读(1212) 评论(0) 推荐(0) 编辑
摘要: 推荐概念 信息过滤系统 解决 信息过载 用户需求不明确的问题 利用一定的规则将物品排序 展示给需求不明确的用户 推荐 搜索区别 推荐个性化较强,用户被动的接受,希望能够提供持续的服务 搜索个性化弱,用户主动搜索,快速满足用户的需求 推荐和 web项目区别 构建稳定的信息流通通道 推荐 信息过滤系统 阅读全文
posted @ 2019-11-10 10:12 王马扎 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 一.Flume安装目录 1.安装部署目录 2.将所需jar包复制到flume的lib目录下 二.压缩与解压 压缩 三.Kafka 创建Topic 消费Topic 四.启动flume服务 五.flume配置文件 阅读全文
posted @ 2019-10-16 15:50 王马扎 阅读(1020) 评论(0) 推荐(0) 编辑
摘要: 版本 elasticsearch==5.5.0 python==3.7 说明 用python查询es上存储的状态数据,将查询到的数据用pandas处理成excel code "python查询ES方法" 阅读全文
posted @ 2019-08-06 19:28 王马扎 阅读(2734) 评论(0) 推荐(0) 编辑
摘要: neo4j算法需要用到python igraph包,但试过很多方法,都失败了 安装失败, 提示C core of igraph 没有安装。 在conda "官网" 中提示可以用以下方法安装: 阅读全文
posted @ 2019-03-06 15:06 王马扎 阅读(1680) 评论(0) 推荐(0) 编辑
摘要: 1.首先安装ipykernel:conda install ipykernel 解决安装ipykernel权限报错问题 2.在虚拟环境下创建kernel文件:conda install n 环境名称 ipykernel 3.激活conda环境: source activate 环境名称 4.将环境写 阅读全文
posted @ 2019-01-05 09:25 王马扎 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 前言 Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境 版本:Flink 1.6.2 集群环境:Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式 解压:tar zxvf flink 阅读全文
posted @ 2018-12-18 13:22 王马扎 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 描述 代码说明: 一.当Person p1 = new Person();第一次被调用时需要做两件事: 1.先判断类加载器是否加载过Person类,如果没有则加载到Person类型到方法区 2.在堆中开辟内存空间,在栈中对象名引用(指向)堆的相应内存空间 二. p1.name = '皓皓': 将堆中 阅读全文
posted @ 2018-12-06 11:07 王马扎 阅读(1309) 评论(0) 推荐(0) 编辑