摘要: 1、概念 ElasticSearch是一个高性能,基于Lucene的全文检索服务,是一个分布式的Restful风格的搜索和数据分析引擎,也可以作为NoSQL数据库使用。Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎, 阅读全文
posted @ 2021-02-18 18:04 夏日的向日葵 阅读(1059) 评论(0) 推荐(0) 编辑
摘要: 1、概念 HBase是一个分布式的NoSQL数据库,其特点高可靠、高性能、面向列、可伸缩。 适合存储大表数据 ,并且可实时读写大表数据。大表:表的规模可以达到数十亿行以及数百万列 表结构稀疏。稀疏:对于为空的列,并不占用存储空间 数据底层存储于Hadoop HDFS分布式文件系统。 利用ZooKee 阅读全文
posted @ 2021-02-18 11:30 夏日的向日葵 阅读(1071) 评论(0) 推荐(0) 编辑
摘要: Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。 提供可视化向导式的作业配置管理界面; 提供定时调度任务,周期性执行Loader作业; 在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。 基于开源Sqoop研发, 阅读全文
posted @ 2021-01-29 23:38 夏日的向日葵 阅读(467) 评论(0) 推荐(0) 编辑
摘要: Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL 、 PostgreSQL 阅读全文
posted @ 2021-01-29 22:27 夏日的向日葵 阅读(1297) 评论(0) 推荐(0) 编辑
摘要: 一、数据库设计架构 数据库设计架构有三种模式设计: 1、Shared - Disk 各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。 典型的代表Oracle RAC,数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好。其类似于SMP(对称多处理)模式,但是当存储器接口达到饱和 阅读全文
posted @ 2021-01-15 12:57 夏日的向日葵 阅读(6960) 评论(0) 推荐(0) 编辑
摘要: Spark简介 Spark是基于内存的分布式批处理系统,它把任务拆分,然后分配到多个的CPU上进行处理,处理数据时产生的中间产物(计算结果)存放在内存中,减少了对磁盘的I/O操作,大大的提升了数据的处理速度,在数据处理和数据挖掘方面比较占优势。 Spark应用场景 数据处理(Data Process 阅读全文
posted @ 2021-01-14 23:04 夏日的向日葵 阅读(1596) 评论(0) 推荐(0) 编辑
摘要: 1.大数据的概念 维基百科的定义: 大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 2.大数据主流技术 数据采集: 使用Flume,可进行流式日志数据的收集。 使用Sqoop可以交互关系型数据库,进行导入导出数据。 使用爬虫技术,可在网上爬取海量网页数据。 数据存储与 阅读全文
posted @ 2021-01-08 22:55 夏日的向日葵 阅读(1582) 评论(0) 推荐(0) 编辑
摘要: 手写数字数据集是个非常有名的用于图像识别的数据集。数字识别的过程就是将这些图片与分类结果0-9一一对应起来。我们可以直接从sklearn中加载自带的手写数字数据集: from sklearn.model_selection import train_test_split from sklearn i 阅读全文
posted @ 2020-08-31 20:40 夏日的向日葵 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 一、CART算法的实现 #encoding:utf-8 from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from sklearn.tree import D 阅读全文
posted @ 2020-08-16 17:28 夏日的向日葵 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 对于给定的样例数据: 对其进行缺失值填补、名字切分、删除重复值操作: import pandas as pd from pandas import DataFrame,Series df = DataFrame(pd.read_excel("F:\\python入门\\数据1\\food.xlsx" 阅读全文
posted @ 2020-08-07 11:05 夏日的向日葵 阅读(616) 评论(0) 推荐(0) 编辑