夏日的向日葵

2021年2月18日

摘要： 1、概念 ElasticSearch是一个高性能，基于Lucene的全文检索服务，是一个分布式的Restful风格的搜索和数据分析引擎，也可以作为NoSQL数据库使用。Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，阅读全文

posted @ 2021-02-18 18:04 夏日的向日葵阅读(1140) 评论(0) 推荐(0)

实时检索之HBase

摘要： 1、概念 HBase是一个分布式的NoSQL数据库，其特点高可靠、高性能、面向列、可伸缩。适合存储大表数据，并且可实时读写大表数据。大表：表的规模可以达到数十亿行以及数百万列表结构稀疏。稀疏：对于为空的列，并不占用存储空间数据底层存储于Hadoop HDFS分布式文件系统。利用ZooKee 阅读全文

posted @ 2021-02-18 11:30 夏日的向日葵阅读(1155) 评论(0) 推荐(0)

2021年1月29日

数据采集之Loader

摘要： Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。提供可视化向导式的作业配置管理界面；提供定时调度任务，周期性执行Loader作业；在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。基于开源Sqoop研发，阅读全文

posted @ 2021-01-29 23:38 夏日的向日葵阅读(525) 评论(0) 推荐(0)

数据采集工具之Sqoop

摘要： Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(MySQL 、 PostgreSQL 阅读全文

posted @ 2021-01-29 22:27 夏日的向日葵阅读(1430) 评论(0) 推荐(0)

2021年1月15日

GaussDB 200概述

摘要：一、数据库设计架构数据库设计架构有三种模式设计： 1、Shared - Disk 各个处理单元使用自己的私有 CPU和Memory，共享磁盘系统。典型的代表Oracle RAC，数据共享，可通过增加节点来提高并行处理的能力，扩展能力较好。其类似于SMP（对称多处理）模式，但是当存储器接口达到饱和阅读全文

posted @ 2021-01-15 12:57 夏日的向日葵阅读(7454) 评论(0) 推荐(0)

2021年1月14日

离线批处理之Spark

摘要： Spark简介 Spark是基于内存的分布式批处理系统，它把任务拆分，然后分配到多个的CPU上进行处理，处理数据时产生的中间产物（计算结果）存放在内存中，减少了对磁盘的I/O操作，大大的提升了数据的处理速度，在数据处理和数据挖掘方面比较占优势。 Spark应用场景数据处理(Data Process 阅读全文

posted @ 2021-01-14 23:04 夏日的向日葵阅读(1688) 评论(0) 推荐(0)

2021年1月8日

大数据场景化解决方案

摘要： 1.大数据的概念维基百科的定义：大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 2.大数据主流技术数据采集：使用Flume，可进行流式日志数据的收集。使用Sqoop可以交互关系型数据库，进行导入导出数据。使用爬虫技术，可在网上爬取海量网页数据。数据存储与阅读全文

posted @ 2021-01-08 22:55 夏日的向日葵阅读(1719) 评论(0) 推荐(0)

2020年8月31日

KNN如何对手写数字进行识别(python)

摘要：手写数字数据集是个非常有名的用于图像识别的数据集。数字识别的过程就是将这些图片与分类结果0-9一一对应起来。我们可以直接从sklearn中加载自带的手写数字数据集： from sklearn.model_selection import train_test_split from sklearn i 阅读全文

posted @ 2020-08-31 20:40 夏日的向日葵阅读(611) 评论(0) 推荐(0)

2020年8月16日

python决策树

摘要：一、CART算法的实现 #encoding:utf-8 from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from sklearn.tree import D 阅读全文

posted @ 2020-08-16 17:28 夏日的向日葵阅读(273) 评论(0) 推荐(0)

2020年8月7日

python数据清洗（pandas使用）

摘要：对于给定的样例数据：对其进行缺失值填补、名字切分、删除重复值操作： import pandas as pd from pandas import DataFrame,Series df = DataFrame(pd.read_excel("F:\\python入门\\数据1\\food.xlsx" 阅读全文

posted @ 2020-08-07 11:05 夏日的向日葵阅读(668) 评论(0) 推荐(0)

夏日的向日葵

公告