liangxb - 博客园

2019年2月1日

摘要：有事会遇到在python代码中导入包错误问题，本文简单对python包的引入做简单介绍简单说,我认为python导包一共有3种情况,分别是: 要导的包与当前文件在同一层要导的包在当前文件的底层(就是与当前文件夹同级的文件夹里)要导的包在当前文件的上层 1、要导的包与当前文件在同一层 use.py表阅读全文

posted @ 2019-02-01 10:37 liangxb 阅读(3317) 评论(0) 推荐(0) 编辑

2019年1月31日

Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据

摘要：本篇目标：我们以爬取京东商城商品数据为例，展示Scrapy框架对接selenium爬取京东商城商品数据。背景：京东商城页面为js动态加载页面，直接使用request请求，无法得到我们想要的商品数据，故需要借助于selenium模拟人的行为发起请求，输出源代码，然后解析源代码，得到我们想要的数据。阅读全文

posted @ 2019-01-31 21:31 liangxb 阅读(1701) 评论(0) 推荐(0) 编辑

2018年10月21日

PowerDesigner最基础的使用方法入门学习(二)

摘要： 1. 生成sql脚本 Database→Generate Database 选择要输出的文件路径，即文件存储路径，并根据需要修改文件名，单击确定后便会生成sql脚本。在Options选项卡里，可以个性化选择和配置sql脚本，如取消外键，去除drop语句等。 Selection选项卡中可以选择哪些表阅读全文

posted @ 2018-10-21 22:17 liangxb 阅读(1211) 评论(0) 推荐(0) 编辑

运用PowerDesigner的反向工程，可以导入SQL脚本，从而生成物理模型

摘要：运用PowerDesigner的反向工程，可以导入SQL脚本，从而生成物理模型。方法/步骤首先打开PowerDesigner，点击左上角“File”—>"Reverse Engineer"—>"Database..."，如下图所示。这时，会弹出新建物理模型的窗口。在“DBMS:”的下拉框的选择自阅读全文

posted @ 2018-10-21 20:54 liangxb 阅读(1327) 评论(0) 推荐(0) 编辑

PowerDesigner最基础的使用方法入门学习(一)

摘要： 1：入门级使用PowerDesigner软件创建数据库（直接上图怎么创建，其他的概念知识可自行学习）我的PowerDesigner版本是16.5的，如若版本不一样，请自行参考学习即可。（打开软件即是此页面，可选择Create Model,也可以选择Do Not Show page Again,自行阅读全文

posted @ 2018-10-21 20:52 liangxb 阅读(45851) 评论(3) 推荐(21) 编辑

2018年10月20日

数据仓库建模

摘要：前言数据仓库建模包含了几种数据建模技术，除了之前在数据库系列中介绍过的ER建模和关系建模，还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术，并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系：规范化数据仓库，维度建模数据仓库，以及独立数据集市。回到顶部阅读全文

posted @ 2018-10-20 12:11 liangxb 阅读(22048) 评论(0) 推荐(2) 编辑

数据仓库--事实表和维度表

摘要：本文主要参考如下几篇文章：http://www.cnblogs.com/47613593/archive/2009/02/20/1394581.htmlhttp://jackwxh.blog.51cto.com/2850597/827968 1.数据仓库与操作型数据库的区别数据仓库的物理模型与常见阅读全文

posted @ 2018-10-20 12:10 liangxb 阅读(9089) 评论(0) 推荐(0) 编辑

Hive深入学习--应用场景及架构原理

摘要： Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代，大数据是现在互联网的趋势，而hadoop就是大数据时代里的核心技术，但是hadoop的mapreduce操作专业性太强，所以facebook在这些基础上开发了h 阅读全文

posted @ 2018-10-20 12:09 liangxb 阅读(1023) 评论(0) 推荐(0) 编辑

漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

摘要：本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成： 0x01 什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。我们先看一阅读全文

posted @ 2018-10-20 11:49 liangxb 阅读(31624) 评论(1) 推荐(7) 编辑

2018年10月16日

HBase - Filter - 过滤器的介绍以及使用

摘要： 1 过滤器HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（Filter）来查询。阅读全文

posted @ 2018-10-16 22:21 liangxb 阅读(2722) 评论(0) 推荐(0) 编辑