07 2022 档案

摘要:主机连接拒绝通常有以下几种情况:1. 主机名称的问题,机器因为某种原因,hostname发生了变更。2. 免密通信失效 由master ssh到其他主机监测是否能够连接3. 确认目标ip是否有效,该机器配置了真实的地址4. ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(331) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! 1 字符串判断 str1 = str2 当两个串有相同内容、长度时为真 str1 != str2 当串str1和str2不等时为真 -n str1 当串的长度大于0时为真(... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(1586) 评论(0) 推荐(0) 编辑
摘要:ps -ef和ps aux有什么区别。 答: ps aux 是用BSD的格式来显示 java这个进程 可以看到状态 显示的内容有:USER , PID , %CPU , %MEM , VSZ , RSS ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(296) 评论(0) 推荐(0) 编辑
摘要:优化时,把hive sql 当做map reduce 程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(27) 评论(0) 推荐(0) 编辑
摘要:读 车品觉 的 1.大数据时代的核心特质是'用数据找机会' 2.很多时候,我们欠缺的不是解决问题的方式,而是定位问题的能力 3.在万物皆数据的时代,要以“假设数据都能获取”为前提去思考问题 4.端菜才是大数据所面临的最严重的问题。收集数据的人并不... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(18) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! --------------------------------------------------我是分割线---------------------------------------------------... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(289) 评论(0) 推荐(0) 编辑
摘要:在第一部分中,我们讲了使用expect和spawn结合的方法,来实现切用户执行命令的例子。 第一部分的地址是:https://blog.csdn.net/wx740851326/article/details/72302935 这一部分,我们来看下如何切换命令... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(105) 评论(0) 推荐(0) 编辑
摘要:在很多的linux脚本中,我们需要su切换用户,来执行相应权限的命令。如果脚本中直接su的话,大多数情况,命令在su之后不会继续执行。因此,我们需要换一种方式来实现su命令,在这里,我推荐使用expect结合spawn命令来实现。 实例如下: export c... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(387) 评论(0) 推荐(0) 编辑
摘要:cca175开发者认证有10至12条题目,主要是基于cdh5的操作题。 要想通过此考试,需要掌握以下基本技能: 1.获取数据的能力 这需要我们掌握sqoop的etl命令,flume的数据采集方式,以及如何使用hdfs的命令行加载数据。 ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(104) 评论(0) 推荐(0) 编辑
摘要:查看SELinux状态: 1、/usr/sbin/sestatus -v ##如果SELinux status参数为enabled即为开启状态 SELinux status: enabled 2、ge... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(65) 评论(0) 推荐(0) 编辑
摘要:yarn的主要思想是将 JobTracker的 资源管理和任务调度 / 监控 功能分离开来,形成两个组件。 新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(34) 评论(0) 推荐(0) 编辑
摘要:flume配置文件example #agent1表示代理名称 agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1 #Sp... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(70) 评论(0) 推荐(0) 编辑
摘要:cdh版本的hadoop在对数据安全上的处理采用了Kerberos+Sentry的结构。 kerberos主要负责平台用户的权限管理,sentry则负责数据的权限管理。 下面我们来依次了解一下: ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(127) 评论(0) 推荐(0) 编辑
摘要:QJM的基本原理就是用2N+1台JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了。当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了。 第一部分 ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(150) 评论(0) 推荐(0) 编辑
摘要:Paxos 算法,这个算法主要 解决的问题是一个 分布式系统如何就某个值(决议)达成一致。 这是一 种基于消息传递模型的一致性算法。 凡是多个过程需要达成某种一致性的都可以用到Paxos 算法。 这个算法有以下几个典型的应用场... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(32) 评论(0) 推荐(0) 编辑
摘要:QJM的基本原理就是用2N+1台JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了。当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了。 第二... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(67) 评论(0) 推荐(0) 编辑
摘要:一、前提和设计目标(6点) 硬件错误: 硬件错误是常态,错误检测和快速、自动的恢复是HDFS最核心的架构目标。 流式数据访问: 流式访问数据集,数据批处理。相比数据访问的低延迟问题,更关注对数据的高吞吐量。 大规... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(90) 评论(0) 推荐(0) 编辑
摘要:字符型varchar2:replace(replace(replace(trim(ADDRESS_REMARK),chr(9),'_'),chr(13)||chr(10),'_'),chr(10),'_')||chr(9)|| 日期型date... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(50) 评论(0) 推荐(0) 编辑
摘要:使用sql获取目标表字段 select owner, table_name, to_char(column_name) AS column_name from (select c.OWNER, ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(237) 评论(0) 推荐(0) 编辑
摘要:一、Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume提供对数据进行简单处理,并写到... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(66) 评论(0) 推荐(0) 编辑
摘要:CDH 特性 免费版 付费版 Deployment, Configuration & Management 系统管理 Automated Deployment & Hadoop Readiness Checks 自动化部署及快速检查 • • Instal... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(698) 评论(0) 推荐(0) 编辑
摘要:一、背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。 Apache Hadoop:... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(413) 评论(0) 推荐(0) 编辑
摘要:可以去https://github.com 搜索dockerfile MySQL 默认会在 3306 端口启动数据库。 $ sudo docker run --name some-mysql -e MYSQL_ROOT... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(21) 评论(0) 推荐(0) 编辑
摘要:Docker 底层的核心技术包括 Linux 上的名字空间(Namespaces)、 控制组(Control groups)、 Union 文件系统(Union file systems)和 容器格式(Container... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(52) 评论(0) 推荐(0) 编辑
摘要:#---------------------dockerfile----------------------- #-------attention:dockerfile命令均要求使用大写--------- #容器的基本信息和版本 ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(21) 评论(0) 推荐(0) 编辑
摘要:当 Docker 启动时,会自动在主机上创建一个 docker0 虚拟网桥,实际上是 Linux 的一个 bridge,可以理 解为一个软件交换机。它会在挂载到它的网口之间进行转发。 当创建一个 Docker 容器的时候,同时会... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(136) 评论(0) 推荐(0) 编辑
摘要:Docker 允许通过外部访问容器或容器互联的方式来提供网络服务。 外部访问容器 容器中可以运行一些网络应用,要让外部也可以访问这些应用,可以通过 -P 或 -p 参数来指定端口映 射。 映射所有接口地址 ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(40) 评论(0) 推荐(0) 编辑
摘要:1.在容器中管理数据主要有两种方式: 数据卷(Data volumes) 数据卷容器(Data volume containers) 数据卷 数据卷是一个可供一个或多个容器使用的特殊目录,它绕过 UFS... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(27) 评论(0) 推荐(0) 编辑
摘要:一、为什么要用docker 1.docker的资源利用率高,系统开销小 Docker 容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多。 其次,Docker 对系统资源的利用率很高,一台主机上可以同时运行数... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(58) 评论(0) 推荐(0) 编辑
摘要:java确定了每类基本类型所占的空间的大小,他们的大小并不像其他大多数语言那样随机器硬件架构的变化而变化。这种存储空间大小的不变性是java程序比其他大多数语言编写的程序更具有可移植性的原因之一。 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(12) 评论(0) 推荐(0) 编辑
摘要:问:程序运行时,java对象是怎么放置安排的,内存是怎么分配的。 有五个不同的地方可以存储数据 1.寄存器。 位于处理器内部,是最快的存储区。java中不能直接对其进行操作,c类语言可以。 2.堆栈。位于ram中。一般使用堆... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(235) 评论(0) 推荐(0) 编辑
摘要:方法1: 前提需要机器安装expect命令 #! /usr/bin/expect -f spawn scp -P 端口 root@x.x.x.x :/x.txt /x.txt expec... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(79) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! 很多时候我们在执行sh命令需要执行一个时间段的脚本任务,循环调用是很常见的,以下的脚本用于递归执行一个时间段的脚本。 代码如下: #!/bin/sh #circle_oper... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(110) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! 下面分享一个我在工作中使用的每天归档文件的脚本。 主要的功能就是备份一个文件夹下的所有需要备份的文件达成tar包 脚本 如下: #!/bin/sh #daily_... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(34) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! 两种方法,另附效果图: 第一种方案: while true; do read -p "Do you wish to install this program?" yn case $yn i... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(44) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! 亲测有效 此说明主要针对,本地无oracle,想远程连接oracle的情况。 1、首先去oracle官网下载三个需要的压缩包 具体地址是:http://www.oracle.... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(297) 评论(0) 推荐(0) 编辑
摘要:设置启动文件 PYTHONSTARTUP 类似于profile 这个文件在交互会话期是只读的, 当Python从脚本中解读文件或以终端/dev/tty 做为外部命令源时则不会如此, 它与解释器中不受限制的使用。 你也可以... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(381) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! 1.docker search 搜索docker镜像信息 2.docker pull 从镜像库中拉取镜像文件 3.docke... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(128) 评论(0) 推荐(0) 编辑
摘要:$? 主要用于返回上一行执行命令的结果,然后加以判断 if [ $? -ne 0 ]then #脚本不正常退出 exit 1fi 判断上一行命令结果是否为0,不为0则异常退出 ne是not equal的意思 ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(802) 评论(0) 推荐(0) 编辑
摘要:my_fun() { echo "$#" } echo 'the number of parameter in "$@" is '$(my_fun "$@") echo 'the number of parameter in "$*" is '$(... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(801) 评论(0) 推荐(0) 编辑
摘要:>和>>都是重定向输出1> 指标准信息输出路径(也就是默认的输出方式)2> 指错误信息输出路径2>&1 指将标准信息输出路径指定为错误信息输出路径(也就是都输出在一起) 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(32) 评论(0) 推荐(0) 编辑
摘要:tee指令会从标准输入设备读取数据,将其内容输出到标准输出设备,同时保存成文件。 语 法:tee [-ai][--help][--version][文件...] 参 数: -a或--append 附加到既有文件的后面,... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(25) 评论(0) 推荐(0) 编辑
摘要:----------------------------------------------------------- #!/bin/bash set -e command 1 command 2 ... exit 0 -----------... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(161) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! 引子: ps -ef和ps aux有什么区别。 答:ps aux 是用BSD的格式来显示 java这个进程 可以看到状态 显示的项目有:USER , PID , %CPU , ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(123) 评论(0) 推荐(0) 编辑
摘要:声明:允许转载,转载请注明链接,谢谢合作! sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。 一、 ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(83) 评论(0) 推荐(0) 编辑
摘要:Docker是一个开源的引擎,可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署,包括VMs(虚拟机)、 bare metal、OpenStack 集群和其他的基础应用平台。 ... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(48) 评论(0) 推荐(0) 编辑
摘要:我常想,一个人,究竟要做到什么样的程度才能掌握自己的生命。 ​这段日记主要用于记录我学习python核心编程这本书的过程。 chapter 1 ​ 1.python可以通过解释器,py脚本,ide来运行。 2.python自带了很多标准库... 阅读全文
posted @ 2022-07-27 21:10 feitiandamo 阅读(13) 评论(0) 推荐(0) 编辑
摘要:项目整体管理 ①制定项目章程 ②制定项目管理计划 ③指导与管理项目工作 ④监控项目工作 ⑤实施整体变更控制 ⑥结束项目或阶段 项目范... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(216) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(153) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(78) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(179) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(275) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(282) 评论(0) 推荐(0) 编辑
摘要:十 大 知 识 领 域 49个子过程五大过程组启动规划执行监控收尾1整合管理1.1制定项目章程1.2制定项目管理计划 1.3指... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(85) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(133) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(209) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(163) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 第三章 项目整合管理 第四章 项目范围管理 第五章 项目进度管理 第六章 项目成本管理 第... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(232) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 第二章 写在前面 文章目录 项目管理前言一、组织过程资产二、事业环境因素三、商业文件 协议1. 项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(51) 评论(0) 推荐(0) 编辑
摘要:项目管理 第一章 综述 文章目录 项目管理前言一、PMP和软考高项二、项目管理1.PMP的五大过程组,十大知识领域2.软考高项... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(73) 评论(0) 推荐(0) 编辑
摘要:** 1.检查anaconda的版本 ** 找不到 activate命令或者activate之后发现环境并没有激活 建议下载最新的a... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(168) 评论(0) 推荐(0) 编辑
摘要:anaconda安装报错的原因有很多种: 1.代理原因: ** 指定代理方法为修改c盘相应用户下的 .condarc文件 proxy... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(420) 评论(0) 推荐(0) 编辑
摘要:项目经理能力三角:项目管理专业技能、领导力、战略与商业管理 技术项目管理技能:有效利用项目管理知识,实现项目集或项目的预期成果的能力... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(13) 评论(0) 推荐(0) 编辑
摘要:事业环境因素? 工作授权系统WAS 项目管理信息系统 PMIS 配置管理系统(变更控制系统)记录管理系统 组织过程资产? 在整个项目... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(9) 评论(0) 推荐(0) 编辑
摘要:重要的话说在前面: 项目管理的重要性:交付优质产品的唯一方法就是关注项目管理 Q:核心思想: 项目中完成的所有工作都有一个模式,这个... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(29) 评论(0) 推荐(0) 编辑
摘要:指定了一个日期,取它的前一天,一周,一个月,一年 分别用 day week month year (加不加s均可),代码中顺序不限,... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(183) 评论(0) 推荐(0) 编辑
摘要:机器学习中,当我们在进行数据预处理的时候,对于标签列非字符的数据,我们往往需要将其转换成字符,因为有的算法可能不支持非数字类型来做特... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(260) 评论(0) 推荐(0) 编辑
摘要:pandas中经常会需要对某列做一些筛选,比如筛选某列里的不包含某些值的行,类似sql里的in和not in功能,那么怎么实现呢。 ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(163) 评论(0) 推荐(0) 编辑
摘要:一直以来想要学习机器学习。 想要入门机器学习,学习的方式大多是从网上观看相关的视频和书籍。 看的视频,怎么说呢,讲的很基础,但是没有... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(66) 评论(0) 推荐(0) 编辑
摘要:之所以要数据归一化是因为,不同评价指标往往具有不同的量纲,数值间的差距可能很大,不进行处理会影响到分析的结果,同时也不利于多个指标在... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(515) 评论(0) 推荐(0) 编辑
摘要:pandas使用pivote_table时,报错 报这个错多半是因为你指定的列里不能执行所对应的聚合操作,你所指定的数字列里包含着字... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(448) 评论(0) 推荐(0) 编辑
摘要:基本方法 关联分析的目标包括两项:发现频繁项集和发现关联规则。 首先需要找到频繁相机,然后才能获得关联规则。 关联分析的主要目的是寻... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(167) 评论(0) 推荐(0) 编辑
摘要:预测是人们根据食物的发展鼓励、历史和现状,分析影响其变化的因素,对其发展前景和趋势进行的一种推测。 时间序列分析法 时间序列分析师根... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(718) 评论(0) 推荐(0) 编辑
摘要:1.决战大数据(升级版):大数据的关键思考 车品觉 2.数据即未来 大数据的王者之道 美 布瑞恩戈德西 陈斌译 3.数据分析与机器学... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(6) 评论(0) 推荐(0) 编辑
摘要:要爬取的目标网站是金山词霸的每日一句栏目 本人热衷英语学习,同时觉得其使用的图片以后可以当做素材,作为一个什么限制也没有的基础网站,... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(170) 评论(0) 推荐(0) 编辑
摘要:CDSW的安装手册请参考我的另一篇文章 CDSW安装手册 1.域名解析的问题。 配置需要仔细仔细再仔细,否则dns解析不了是无法访问... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(48) 评论(0) 推荐(0) 编辑
摘要:CDSW是cloudera的数据科学工作台 安装的注意事项 1.CDH的版本需要在5.13及以后的版本。 2.需要给CDSW的主节点... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(363) 评论(0) 推荐(0) 编辑
摘要:举例 文件 windows_params 包含两个方法,两个参数 a = 1b = 2def count(): print('... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(168) 评论(0) 推荐(0) 编辑
摘要:python基础 1.启动jupyter notebook 2.在桌面上新建名为jupyter的文件夹,进入文件夹,新建python... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(36) 评论(0) 推荐(0) 编辑
摘要:因为原来的破解补丁下载链接失效了,今天来更新下新的补丁。 首先感那些无私制作并免费提供补丁的人,世界因他们而光明!!! 同时,我也更... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(158) 评论(0) 推荐(0) 编辑
摘要:安装anaconda Anaconda下载 下载python 3.X版本 之后一键安装即可。 安装 jupyter notebook... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(22) 评论(0) 推荐(0) 编辑
摘要:前后端开发的时候需要设置下跨域访问,设置如下 setting文件里添加 CORS_ALLOW_CREDENTIALS = True ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(134) 评论(0) 推荐(0) 编辑
摘要:去重 df.drop_duplicates(keep=‘first’,inplace=True) 条件 df.loc[(df[‘CL... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(15) 评论(0) 推荐(0) 编辑
摘要:import numpy as np np.set_printoptions(suppress=True) pd.set_optio... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(167) 评论(0) 推荐(0) 编辑
摘要:需求 判断一个df中的各行各列是否包含某值,然后做出操作 读取文件 import pandas as pd df= pd.read_... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(149) 评论(0) 推荐(0) 编辑
摘要:json.dumps封装数据 在使用pandas处理数据时时长会碰到需要将数据转换成json输出 到前端。 正常的json数据可以直... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(23) 评论(0) 推荐(0) 编辑
摘要:今天访问hdfs,偶然报错There are 0 datanode(s) running and no node(s) are ex... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(52) 评论(0) 推荐(0) 编辑
摘要:从节点默认没有读写权限 error: { “$err” : “not master and slaveOk=false”, “cod... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(424) 评论(0) 推荐(0) 编辑
摘要:配置数据库配置文件 pidfilepath = /usr/mongodb/config/log/config.piddbpath =... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(45) 评论(0) 推荐(0) 编辑
摘要:安装了scala插件 file 》setting》plugins搜SCALA安装完之后重启, 晚上下载sbt安装。 配置sbtsbt... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(41) 评论(0) 推荐(0) 编辑
摘要:pycharm安装完之后需要设置下,file>>settings>>general>>auto import>>python>>sh... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(33) 评论(0) 推荐(0) 编辑
摘要:事务 处理 由于线程的并发性,一个导入操作可能并不是原子性的。 会一次statement插入100条数据,然后每100 个state... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(129) 评论(0) 推荐(0) 编辑
摘要:oracle jdbc Connection Reset问题 oracleJDBC在建立连接时需要一些随机数据用以加密session... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(240) 评论(0) 推荐(0) 编辑
摘要:interpolate 包含了大量的插值函数 unique 去除数据中的重复元素 isnull/notnull 判断元素是否空值 r... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(32) 评论(0) 推荐(0) 编辑
摘要:数据集成 数据挖掘的过程中往往需要的数据分布在不同的数据库,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(390) 评论(0) 推荐(0) 编辑
摘要:数据预处理的内容主要包括数据清洗,数据集成,数据变换和数据规约。 数据清洗 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(788) 评论(0) 推荐(0) 编辑
摘要:Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化)。 数据探索函数可大致分为统计特征函... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(62) 评论(0) 推荐(0) 编辑
摘要:数据特征分析 分布分析 1.定量数据的分布分析 对于定量变量而言,选择组数和组宽是做频率分布分析时最主要的问题,一般按照以下步骤进行... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(245) 评论(0) 推荐(0) 编辑
摘要:数据质量分析 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。 在常... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(328) 评论(0) 推荐(0) 编辑
摘要:Numpy 提供数组支持 Scipy 提供矩阵支持 Matplotlib 数据可视化工具、作图库 pandas 数据分析和探索工具 ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(45) 评论(0) 推荐(0) 编辑
摘要:运行方式 一般两种方式: 客户端执行python3使用Jupyter编码 建议安装anaconda,方便包管理 使用# 来添加注释 ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(63) 评论(0) 推荐(0) 编辑
摘要:数据挖掘的建模过程 定义挖掘目标 明确系统完成后想要达成什么样的效果。 我们需要分析应用领域,了解相关领域的情况,熟悉背景知识,弄清... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(161) 评论(0) 推荐(0) 编辑
摘要:序 道德经阐述:道生一,一生二,二生三,三生万物。 1964年美国科学家盖尔曼提出中子,质子这一类强子是由三个更基本的单元夸克构成的... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(23) 评论(0) 推荐(0) 编辑
摘要:序 道德经阐述:道生一,一生二,二生三,三生万物。 1964年美国科学家盖尔曼提出中子,质子这一类强子是由三个更基本的单元夸克构成的... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(87) 评论(0) 推荐(0) 编辑
摘要:使用mysql的dump命令以sql格式存储。 mysqldump -uroot -p database > backup.sql ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(14) 评论(0) 推荐(0) 编辑
摘要:热备这个东西必然消耗资源,对mysql应用的影响暂时还没有研究,对mysql操作频繁的场景下必然会有影响。 数据需要备份的请参考我的... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(169) 评论(0) 推荐(0) 编辑
摘要:systemctl start mysqld systemctl start 加你的服务名称就可以了。 ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(19) 评论(0) 推荐(0) 编辑
摘要:首先看下当前的密码策略 show variables like 'validate_password%';+------------... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(75) 评论(0) 推荐(0) 编辑
摘要:我的需求是我有多个消费者,需要重复消费某一个topic。 场景是sparkstreaming消费kafka数据 在这里sparkst... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(1297) 评论(0) 推荐(0) 编辑
摘要:之所以报this is incompatible with sql_mode=only_full_group_by的错误是因为mys... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(176) 评论(0) 推荐(0) 编辑
摘要:字符串转日期 str_to_date(str,format); 注:format格式必须和str的格式相同,否则返回空 例子: 字符... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(38) 评论(0) 推荐(0) 编辑
摘要:作者:wx740851326 来源:CSDN 原文:https://blog.csdn.net/wx740851326/artic... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(250) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(428) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(97) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(103) 评论(0) 推荐(0) 编辑
摘要:container-selinux-2.9-4下载地址 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(37) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(9) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(206) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(242) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(256) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(13) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(74) 评论(0) 推荐(0) 编辑
摘要:从业于大数据,需要我们不断的学习。 大数据这个行业所要学习的技术栈种类繁多。 就我个人职业生涯中,接触到的技术栈有以下这些: 分布式... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(28) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(39) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(108) 评论(0) 推荐(0) 编辑
摘要:创作不易,请勿抄袭,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(26) 评论(0) 推荐(0) 编辑
摘要:创作不易,转载请注明出处。如有疑问,请加微信 wx15151889890,谢谢。 [本文链接:]https://blog.csdn.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(649) 评论(0) 推荐(0) 编辑
摘要:未被external修饰的是内部表(managed table),被external修饰的为外部表(external table); 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.wa... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(2638) 评论(0) 推荐(0) 编辑
摘要:写文章不容易,喜欢的请赞一赞。如有疑问,请加微信wx15151889890,谢谢。 flink相比于spark,还是比较好用的。话不多说上代码 //定义流处理环境final StreamExecutionEnvironment env = StreamE... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(157) 评论(0) 推荐(0) 编辑
摘要:我们通常使用Kafak+sparkstream+redis来作为我们实时数据处理的方案,需要处理各种关于实时计算的需求。 需求一:触发告警 流式数据的某个字段是一个固定的值,比如 state是off,而一旦这个值发生了改变,我们需要触发告警,比如state变成... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(101) 评论(0) 推荐(0) 编辑
摘要:在处理json对象的时候,如果我们获取的key值不在这个json里面,那么直接使用以下的语句: Json.get(key) 直接get去获取对象的话就容易出现空指针的异常,如果要处理的话还需要捕捉异常。 还有另一个方法也能实现get操作那就是opt方法 根据... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(285) 评论(0) 推荐(0) 编辑
摘要:在我们处理创建了一个json对象之后,要给其赋值。 通常我们使用JSONObject.put(key,value);即可实现。 但有时在put的时候也会出现空指针的错误,这个是因为json对象没有实例化。 如果我们定义一个json对象使用的是如下语句 ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(227) 评论(0) 推荐(0) 编辑
摘要:1.我们通常将数据分成无界数据集和有界数据集。 在我们的生活当中,只要还在持续不断的产生或者变化,这样的数据集我们都说它是无界数据集。 2.我们通常将计算方式分成两种: 第一种是实时的,我们也称之为流式处理 第二种是离线的,我们也称之为批处理 这个两种计算方式... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(128) 评论(0) 推荐(0) 编辑
摘要:现今的程序都要求能够读写配置文件,使得程序的配置信息能够很方便地修改。 读取配置文件通常使用property文件,下面列举了从hadoop的hdfs和本地的文件系统读取配置的例子。 话不多说,上代码: //读取hdfs配置文件 public static P... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(979) 评论(0) 推荐(0) 编辑
摘要:下面我要引用的代码来自于sparkStream的官网案例,案例内容为从kafka读取数据进行wordcount计算 package org.apache.spark.examples.streaming;import java.util.HashMap;imp... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(68) 评论(0) 推荐(0) 编辑
摘要:如果需要卸载cdh,那么主要需要做的是停止cdh的相关服务,清理cdh相关的组件的路径,卸载cdh相关的程序安装包 1.需要卸载cdh的节点移出集群环境(单节点卸载和集群卸载操作是一样的) 参照左图, 第一步是停止主机上的角色 第二步是解除主机的授权 第三步... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(243) 评论(0) 推荐(0) 编辑
摘要:在安装完成cdh5.13.3之后,写了个sparkstream的代码,然后准备用spark2-submit提交任务,结果遇到了一系列的错误: 1.spark2-submit提交任务的时候直接报错 Exception in thread "main" java.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(245) 评论(0) 推荐(0) 编辑
摘要:有的时间,用户名密码都是对的,却显示无法连接。 这是因为mysql有连接限制,需要放行ip地址 select host, user, password from user; 使用这个sql查看数据库权限 grant all PRIVILEGES on *.* ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(27) 评论(0) 推荐(0) 编辑
摘要:下载mysql,地址:https://dev.mysql.com/downloads/mysql/5.6.html 解压安装 tar -xf MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar rpm -i... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(106) 评论(0) 推荐(0) 编辑
摘要:做一个实时系统,用到了kafka,redis,sparkStream,很经典的一个架构。 kafka的生产者就不写了,这边只涉及sparksteam写消费者代码,存到redis。 KafkaToRedis kafkaToRedis=new KafkaToRed... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(97) 评论(0) 推荐(0) 编辑
摘要:有的时候我们跑一个批量的脚本并发不能太大,需要对线程控制。这个就是本脚本使用的场景。 #!/bin/bash date +'%Y/%m/%d %H:%M:%S' HADOOP_CONF_DIR=/opt/cloudera/parcels/SPARK2-2.1.... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(102) 评论(0) 推荐(0) 编辑
摘要:二话不说,上配置文件 exec-memory-avro.conf exec-memory-avro.sources = exec-source exec-memory-avro.sinks = avro-sink exec-memory-avro.channe... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(212) 评论(0) 推荐(0) 编辑
摘要:本文得主要内容在于gitlab的使用上,基于的官方镜像,如果想自己新建镜像文件,则本文满足不了你的要求。 下面我们来看下gitlab的docker镜像怎么用 一、创建镜像容器 1.获取镜像文件 Gitlab在docker的镜像库有官方的镜像文件,直接下载即可 ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(1921) 评论(0) 推荐(0) 编辑
摘要:1.hive的查询引擎mapreduce,spark,tez2.hive调优3.hive数据倾斜是如何产生的,如何解决4.hive的multi-groupby的特性from Ainsert overwrite table Bselect A.a,count(d... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(91) 评论(0) 推荐(0) 编辑
摘要:造成hive表数据倾斜的原因归根结底是计算集的key值分布不均匀而造成key值分布不均匀的原因有很多:1.业务本身的特性2.建表时考虑不周3.某些sql语句本身就有数据倾斜1)join时表较小且key集中,使得分发到某一个或几个reduce上的数据远高于平均值... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(44) 评论(0) 推荐(0) 编辑
摘要:这个是面试基本都会问到的,从两个方面回答,参数和sql一个是job优化本地执行 hive.exec.mode.local.auto=true1.groupby优化设置hive.groupby.skewindata=true 使其能够分段groupby(各个m... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(21) 评论(0) 推荐(0) 编辑
摘要:1.hive的作用 用类SQL的语言HQL来计算HDFS中的数据,主要做海量数据的离线分析,没有实物的概念. 2.Hive更加侧重OLAP( 联机分析处理)的操作 tips: set hive.cli.print.current.db=true//显示... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(66) 评论(0) 推荐(0) 编辑
摘要:show functions看一下,发现还蛮多的,需要注意天月时分秒之类的返回的都是数字,不会自动补0,可以使用lpad补全year 获取年 month 获取月 weekofyear 获取周day 获取日hour 获取小时minute 获取分钟second 获... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(49) 评论(0) 推荐(0) 编辑
摘要:创建自定义函数的步骤1.创建java类 extends org.apache.hadoop.hive.sql.exec.UDF2.需要实现evalute函数,evalute函数支持重载3.把程序打包放在机器上4.进入hive客户端,上传jar包到hdfs5.创... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(132) 评论(0) 推荐(0) 编辑
摘要:kerberos安装 1.server端 # yum install -y krb5-server krb5-libs krb5-auth-dialog client端 # yum install -y krb5-workstation krb5-libs ... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(158) 评论(0) 推荐(0) 编辑
摘要:cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。 kerberos主要负责平台用户的权限管理,sentry则负责数据的权限管理。 下面我们来依次了解一下: Kerberos包含一个中心节点和若干从节点,所有节点的K... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(596) 评论(0) 推荐(0) 编辑
摘要:oracle学过一段时间,这些年也只是偶尔在用,最近解决了oracle相关的两个小问题,现特意做个笔记,留下痕迹,也不枉自己研究了那么久。劝君惜取少年时,不负云和月。oracle的字符集涉及到两个字段,我们可以使用命令查看select * from v$nls... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(110) 评论(0) 推荐(0) 编辑
摘要:第一步下载python3:wget http://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgztar -zvxf Python-3.6.0.tgzcd Python-3.6.0./configure --pr... 阅读全文
posted @ 2022-07-27 21:09 feitiandamo 阅读(35) 评论(0) 推荐(0) 编辑
摘要:1.生成 秘钥 到.ssh目录下生成秘钥 ssh-keygen -t rsa 2.拷贝秘钥到目标及其的ssh授权文件 也可使用命令 ... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(24) 评论(0) 推荐(0) 编辑
摘要:题目: 给你一个只包含 ‘(’ 和 ‘)’ 的字符串,找出最长有效(格式正确且连续)括号子串的长度。 题目分析: 最长有效括号... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(20) 评论(0) 推荐(0) 编辑
摘要:数据仓库的概念数据湖的概念湖仓一体化数据建模模型,使用的工具数仓分层数据清洗数据脱敏kimball数据仓库构建模式事实表缓慢退化维元... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(28) 评论(0) 推荐(0) 编辑
摘要:hive架构hive sql 解析过程hive与rdbms比较hive的内外部表hive数据存储hive基于json数据建表hive... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(26) 评论(0) 推荐(0) 编辑
摘要:hadoop开源版安装流程hadoop的组成hadoop读写数据的过程描述map reduce过程hadoop调度器hadoop常用... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(24) 评论(0) 推荐(0) 编辑
摘要:文章目录 1. Linux常用高级命令2. Shell常用工具3. Shell中单引号和双引号区别4. crontab定时脚本使用... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(29) 评论(0) 推荐(0) 编辑
摘要:面向对象是相对结构化设计方法提出的。 结构化设计求解问题的基本策略是从功能的角度审视问题域。这样的策略会导致在处理问题时复杂化,因为... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(37) 评论(0) 推荐(0) 编辑
摘要:当dataframe存为excel时,报错openpyxl.utils.exceptions.IllegalCharacterErr... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(691) 评论(0) 推荐(0) 编辑
摘要:当前我的场景是数据中存在大量样本,内容差异仅在于换行符,导致去重的时候,两者都被保留了下来,非我所愿。 几经测试,对于pandas的... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(35) 评论(0) 推荐(0) 编辑
摘要:各型磁盘阵列浅析 1.RAID02.RAID13.RAID54.RAID10 1.RAID0 RAID 0又称为Stripe或St... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(383) 评论(0) 推荐(0) 编辑
摘要:当我们在使用pandas读取excel的时候往往会碰到各种形式的null值,pandas往往默认会将null值(比如空字符串,nul... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(133) 评论(0) 推荐(0) 编辑
摘要:1.DAC自主访问控制 由对象的owner决定谁可以访问对象,以及具有怎样的权限 典型的例子是acl 访问控制列表 操作系统的文档权... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(58) 评论(0) 推荐(0) 编辑
摘要:嚯 嚯 嚯 注意,你访问页面的时候,一定会有点卡顿,因为升级的人实在太多太多啦!!! 鸿蒙2.0正式来啦,小伙伴们一定很想知道正确的... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(972) 评论(0) 推荐(0) 编辑
摘要:摘要 2018年6月,本论文作者领导实施了江苏省内某著名运营商的《基于数据中台的数据服务平台》项目的建设工作,此项目涉及该运营商的省... 阅读全文
posted @ 2022-07-27 21:08 feitiandamo 阅读(342) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示