大数据技术 - 随笔分类 - 桌子哥

Shell编程牛客网和Leetcode

摘要：shell部分的练习在牛客网有34题，在Leetcode有4题，总体来说难度不大，熟练就好。牛客部分： 1.统计文件行数写一个 bash脚本以输出一个文本文件 nowcoder.txt中的行数示例: 假设 nowcoder.txt 内容如下： #include <iostream> using 阅读全文

posted @ 2022-07-18 19:20 桌子哥阅读(404) 评论(0) 推荐(0) 编辑

数据分析常用术语

摘要：1、绝对数和相对数绝对数：是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标，也是数据分析中常用的指标。比如年GDP，总人口等等。相对数：是指两个有联系的指标计算而得出的数值，它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式：相对数阅读全文

posted @ 2022-02-17 13:45 桌子哥阅读(1129) 评论(0) 推荐(0) 编辑

MPP(大规模并行处理)架构

摘要：1、什么是MPP？MPP (Massively Parallel Processing)，即大规模并行处理，在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供阅读全文

posted @ 2021-09-09 10:26 桌子哥阅读(5100) 评论(0) 推荐(0) 编辑

Hive中ORC和TEXTFILE插入数据的方式

摘要：最近在工作的时候踩坑了，在Hive进行数据加工的时候按照同事写好的建表语句来造数往里插数据。同事在建表的时候使用的stored AS orc；一般在工程中都是使用这种方式，有高压缩比其性能更好。在本次需求中需要保留一部分数据来进行测试（这个项目是很久之前做的了，之前让优化，优化完毕之后让自己造数阅读全文

posted @ 2021-08-30 15:01 桌子哥阅读(4219) 评论(0) 推荐(0) 编辑

Hive中将结果表数据获取并且重新以参数形式赋予到SQL脚本中的一种实践办法

摘要：最近使用Hive来加工一批数据形成标签宽表，其中有一部分的标签需要根据统计规律来进行标定，而这些统计规律是需要依赖于之前的结果表。例如，需要统计规律的结果表如下: -- 参数设置SET hivevar:param_1 = ${hiveconf:param_1};SET hivevar:param_ 阅读全文

posted @ 2021-08-06 14:53 桌子哥阅读(638) 评论(0) 推荐(0) 编辑

数据仓库迁移——MPP架构和Hadoop的区别

摘要：最近在做一个数据仓库迁移的项目，目前在前期阶段，所以学习一下MPP架构的概念。目前项目组想要替换掉的是Teradata所提供的一个MPP架构的数据仓库，所以做数据仓库迁移。迁移目标为南大通用所提供的GBASE。对于MPP架构网上的资料较少，开源的有Greenplum这几天在看。由于之前做大数据的阅读全文

posted @ 2021-06-25 09:50 桌子哥阅读(1539) 评论(0) 推荐(0) 编辑

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析

摘要：层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰，有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例，对比分析我们工作中高频出现的几个名词，主要包括以下几个方面：数据什么是大数据数据分析与数据挖掘的区别是什么数据库什么是数据库数据库中的分布式事务理论数据仓库阅读全文

posted @ 2021-06-24 16:42 桌子哥阅读(3307) 评论(0) 推荐(1) 编辑

SQL的分组与透视

摘要：数据分组是对相同类别的数据进行汇总，而数据透视表是通过对行或列的不同组合对数据进行汇总，所使用的汇总方法有求和、计数、平均值、标准差等，本文使用SQL对数据进行数据分组和数据透视，下面一起来学习。 1）普通分组普通的数据分组这里使用的GROUP BY函数，同时使用COUNT函数进行计数。 #数据分阅读全文

posted @ 2021-06-05 21:14 桌子哥阅读(575) 评论(0) 推荐(0) 编辑

实时数仓和离线数仓的概念

摘要：1、数据仓库的发展趋势 1.1数据仓库的趋势关于数据仓库的概念就不多介绍了。数据仓库是伴随着企业信息化发展起来的，在企业信息化的过程中，随着信息化工具的升级和新工具的应用，数据量变的越来越大，数据格式越来越多，决策要求越来越苛刻，数据仓库技术也在不停的发展。数据仓库的趋势：实时数据仓库以满足阅读全文

posted @ 2021-05-03 16:44 桌子哥阅读(5827) 评论(0) 推荐(1) 编辑

运维数据提取与可视化

摘要：项目在实际的运行过程中需要对硬件的情况进行一个实时的统计与监测，但是有的系统会自带有一些可视化页面或功能，或者是针对某一项或某几项指标进行可视化，但是如果需要对数据进行针对性的可视化则需要进行相应的设计。在本次的案例中，针对某系统中项目的实际情况进行数据的提取与可视化。例如原始数据如下所示：第阅读全文

posted @ 2021-05-02 19:06 桌子哥阅读(289) 评论(0) 推荐(0) 编辑

大数据获取案例：Scrapy+Selenium+BeautifulSoup获取中国银行外汇数据

摘要：中国银行作为权威的外汇数据提供方，获取中国银行提供的外汇数据可以有助于进行下一步的分析与预测。在本次的项目中，使用Scrapy+Selenium+BeautifulSoup来获取中国银行的外汇数据并且保存到MySQL数据库中。第一步：分析中国银行的网站打开Chrome浏览器，搜索“中国银行”，阅读全文

posted @ 2021-05-02 18:50 桌子哥阅读(919) 评论(2) 推荐(0) 编辑

HBase基础知识——HBase列式存储格式

摘要：今天在外面培训，培训老师讲了一下HBase，网上看了有专家写了一篇文章，转载一下。之后补充培训的成果。行式存储传统的数据库是关系型的，且是按行来存储的。如下图：其中只有张三把一行数据填满了，李四王五赵六的行都没有填满。因为这里的行结构是固定的，每一行都一样，即使你不用，也必须空到那里，而不能阅读全文

posted @ 2021-04-12 23:09 桌子哥阅读(1321) 评论(0) 推荐(0) 编辑

Selenium网络爬虫实战——以巨潮咨询网为例

摘要：Selenium库是一个自动化测试工具，能够驱动浏览器模拟人的操作，如鼠标单击、键盘输入等。通过Selenium库能够比较容易地获取到网页的源代码，还可以进行网络内容的批量下载。特别对于一些动态网页很实用。本次内容以巨潮网为例，进行pdf文件的下载操作。以Chrome浏览器为例，需要下载并安装模阅读全文

posted @ 2021-04-08 17:41 桌子哥阅读(1100) 评论(0) 推荐(0) 编辑

从新浪财经获取金融新闻类数据并进行打分计算

摘要：随着人们获取信息的方式转变，越来越多的人选择通过互联网来进行信息的获取。新浪财经作为国内较为权威的专业财经新闻网站，通过其发布的新闻资讯可以判断某公司在近期舆论中的情况。第一步：网络爬虫这里不再讲，和以往的相比增加了获取新闻内容。第二步：设计关键字（词）一些对于金融机构不好的词（初试，不精阅读全文

posted @ 2021-03-12 19:35 桌子哥阅读(207) 评论(0) 推荐(0) 编辑

从新浪财经获取金融新闻类数据并保存到MySQL

摘要：前面讲到过如何获取新浪财经金融类新闻的方法，现在讲如何将这些数据存入到MySQL数据库。在这里需要使用的是Wampserver64，图标如下：具体的安装过程就不说了，需要注意的是Apache和MySQL端口占用的问题，进行端口替换就可以了。安装成功后的Wampserver为在托盘中的一个绿色阅读全文

posted @ 2021-03-11 19:59 桌子哥阅读(283) 评论(0) 推荐(0) 编辑

数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表

摘要：数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表 1 增量表1.1 概念增量表：新增数据，增量数据是上次导出之后的新数据。比如说，从24号到25号新增了那些数据，改变了哪些数据，这些都会存储在增量表的25号分区里面。记录每次增加的量，而不是总量；增量表，只报变化量，无变化不用报每天一个分阅读全文

posted @ 2021-03-04 18:03 桌子哥阅读(3606) 评论(0) 推荐(0) 编辑

云计算、雾计算、霾计算、边缘计算以及认知计算

摘要：物联网对于数据的处理能力要求很高，怎么能够从庞大的数据海中挖掘一些有价值的信息对于物联网的发展至关重要，因此云计算，雾计算，边缘计算等等都将发挥其左右。未来的世界将是一个万物互联的时代，随着物联网行业技术标准的完善以及关键技术上的不断突破，数据大爆炸时代将越走越近。就拿从2016年底开始风靡全国甚阅读全文

posted @ 2021-03-02 22:57 桌子哥阅读(473) 评论(0) 推荐(0) 编辑

从新浪财经获取金融新闻类数据

摘要：新浪财经是金融新闻类数据挖掘很重要的一个数据来源，它的新闻质量一般都很高。在这里使用爬虫的方法来获取新浪财经的一些新闻资讯。第一步：打开新浪财经网站第二步：搜索‘工商银行’ 第三步：获取新浪财经里的‘工商银行’的url url = 'https://search.sina.com.cn/? 阅读全文

posted @ 2021-02-28 20:57 桌子哥阅读(1125) 评论(0) 推荐(0) 编辑

Firefox浏览器获取Header

摘要：对于网络爬虫来说header是很重要的一环，因为有些网站只认可浏览器发送的访问请求。网上的例子多是Chrome的，Firefox的较少。第一步：使用百度打开一个网页第二步：按F12进入开发者模式第三步：选择网络第四步：点击一项进去右下角可以看到User-Agent 有这个就可以进阅读全文

posted @ 2021-02-28 10:45 桌子哥阅读(644) 评论(0) 推荐(0) 编辑

数据仓库技术架构

摘要：数仓架构分五层，第一层是数据源，又称上游系统，银行为例，数据源由核心系统、ECIF、贷款系统、存款系统、中间业务总账系统、财务系统等等。第二层，贴源层，又称标准化层（ODS），这里需要清洗脏数据（用正则表达式、条件过滤），规范命名，数据类型和格式作标准化处理，添加时间戳字段。源到贴源层用ETL 阅读全文

posted @ 2021-02-14 21:43 桌子哥阅读(974) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据技术