随笔档案「2021年3月」 - 欣欣姐

摘要：一.截取函数 1.excel中mid() 函数，截取字符串的从字符串返回指定数量的字符,如 2.excel中right()函数，从字符串右端取指定个数字符 3.excel中left()函数，从字符串左端取指定个数字符阅读全文

posted @ 2021-03-31 14:24 欣欣姐阅读(148) 评论(0) 推荐(0)

摘要：针对于64位的数据库 1.首先进行ini文件配置，如果电脑安装了navicat，就用navicat里面的oci.dll文件，因为EZDML运行也需要客户端可以直接引用那vicat（plsql可能是32位的，所以无法直接用plsql的） 2.再进行数据库的连接配置备注，如果报错The creati 阅读全文

posted @ 2021-03-30 12:01 欣欣姐阅读(734) 评论(0) 推荐(0)

flume实时读取文件到kafka

摘要：背景：需要实时读取log日志文件中的记录到kafka 1.zookeeper服务需要开启，查看zookeeper的状态，（zookeeper的安装及启动过程可查看 https://www.cnblogs.com/cstark/p/14573395.html） [root@master kafka_2 阅读全文

posted @ 2021-03-29 11:19 欣欣姐阅读(684) 评论(0) 推荐(0)

hadoop进入到hive的命令交互界面

摘要：一，hadoop进入到hive的命令交互界面进入到hive的安装目录bin下，cd /opt/soft/hive/bin [root@master bin]# cd /opt/soft/hive/bin [root@master bin]# ./hive 二，进入到beeline下 [root@m 阅读全文

posted @ 2021-03-25 15:05 欣欣姐阅读(1140) 评论(0) 推荐(0)

kafka的安装配置

摘要：说明，在安装kafka之前，必须将ZooKeeper先行安装好，具体详细的安装过程可参考 https://www.cnblogs.com/cstark/p/14573395.html 在官网 https://zookeeper.apache.org/releases.html#download 下载阅读全文

posted @ 2021-03-24 15:26 欣欣姐阅读(71) 评论(0) 推荐(0)

zookeeper集群安装部署

摘要：背景：ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件，它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。安装说明：在官网上下载https://zookeeper.apache.org/re 阅读全文

posted @ 2021-03-24 14:28 欣欣姐阅读(77) 评论(0) 推荐(0)

Spark流计算

摘要：Spark Streaming Spark Streaming可以整合多种数据源，如Kafka，Hdfs和Flume，甚至是普通的TCP套j借字，经处理后的数据可存储至文件系统，数据库，或显示再仪表盘里。 Spark Streaming的基本原理是将实时输入数据流以时间片（秒级）为单位进行拆分，然后阅读全文

posted @ 2021-03-22 11:33 欣欣姐阅读(383) 评论(0) 推荐(0)

linux常见操作

摘要：linux 常见操作 1.linux查看正在运行的进程 [root@master ~]# ps -ef | grep spark* # 查看正在运行的spark程序 [root@master ~]# history | grep scp # 查看历史运行的某个命令[root@master ~]# p 阅读全文

posted @ 2021-03-18 17:49 欣欣姐阅读(111) 评论(0) 推荐(0)

pyspark常见使用方法

摘要：以日志文件的解析过程为例，其中部分日志文件样例为： 2021-03-09 06:54:21,907 [http-nio-16680-exec-6-43:tUxRo338DAxy6xpj] INFO [m.u.g.s.l.ThreadLocalLogHandler] - request url: /w 阅读全文

posted @ 2021-03-17 14:23 欣欣姐阅读(755) 评论(0) 推荐(0)

spark在windows环境下安装和配置详解

摘要：背景：一，在用python编辑spark时，需要在windows本地搭建一套spark环境，然后将编辑好的.py上传到hadoop集群，再进行调用；二，在应用spark进行机器学习时，更多时候还是在windows环境下进行会相对比较方便。组件准备： 1、Python3.6.7 2、JDK（本文中使阅读全文

posted @ 2021-03-15 17:18 欣欣姐阅读(6291) 评论(0) 推荐(0)

pyspark踩坑：Python worker failed to connect back和an integer is required

摘要：在安装过程中，请务必注意版本，本人在第一次安装过程中，python版本为3.8，spark版本为3.1.1的，故安装后，在运行pyspark的“动作”语句时，一直报错 Python worker failed to connect back尝试很多办法都无法是解决这个问题，最后只能将spark版本阅读全文

posted @ 2021-03-15 16:20 欣欣姐阅读(4333) 评论(0) 推荐(0)

-bash: /usr/bin/yum: /usr/bin/python: 坏的解释器: 没有那个文件或目录

摘要：问题：Linux安装Python3.X版本之后，运行yum指令的时候提示-bash: /usr/bin/yum: /usr/bin/python: 坏的解释器: 没有那个文件或目录。解决方法修改以下两个配置文件： /usr/bin/yum /usr/libexec/urlgrabber-ext-d 阅读全文

posted @ 2021-03-11 15:26 欣欣姐阅读(6868) 评论(0) 推荐(0)

oracle使用游标查出数据集

摘要：Oracle中，不能直接使用select 直接查出数据集，必须用游标 create or replace procedure test_proc is v_date date; --定义变量 cursor cur is select * from cdmdata.uenshks_trade_pos_ 阅读全文

posted @ 2021-03-11 10:58 欣欣姐阅读(283) 评论(0) 推荐(0)

rman备份与恢复

摘要：1 数据库备份方法 1.1数据库备份方法分类 1.2 数据库备份方法说明逻辑备份：指通过逻辑导出对数据进行备份，逻辑备份的数据只能基于备份时刻进行数据转储，所以恢复时也只能恢复到备份时保存的数据。对于备份点和故障点之间的数据，逻辑备份也是无能为力的，所以逻辑备份适合那些很少变化的数据表。如果通过逻阅读全文

posted @ 2021-03-10 14:07 欣欣姐阅读(2163) 评论(0) 推荐(0)

报表系统在企业中的地位与价值

摘要：产生背景数据庞大，在企业的快速发展中，日积月累产生的数据，已然让传统的数据分析工具，不能很好的“驾驭”如此的庞大数据了。企业不合理的存储和管理数据，使得各部门尤其是决策部门和对账部门不能高效准确的得到自己想要的数据，而使其该部门的整体工作效率降低。对现有的数据不能很好的利用，使其数据价值白白流阅读全文

posted @ 2021-03-10 10:09 欣欣姐阅读(374) 评论(0) 推荐(0)

Flume的安装与配置

摘要：1.背景在hadoop集群上安装flume，将日志数据传输到HDFS上去 2.规划三台主机的主机名分别为master,slave1,slave2(防火墙已关闭) 由slave1和slave2收集日志信息,传给master,再由master上传到hdfs上 3.配置 3.1上传解压在slave1 阅读全文

posted @ 2021-03-09 17:58 欣欣姐阅读(883) 评论(0) 推荐(0)

Spark安装和配置

摘要：背景：在现有的hadoop集群上，进行安装Spark 需要准备：hadoop,scala,jdk spark需要依赖于java运行，所以需要jdk，版本选用2.4.5 scala安装：必须在jdk安装完毕才安装，下载scala：https://downloads.lightbend.com/sca 阅读全文

posted @ 2021-03-09 14:46 欣欣姐阅读(272) 评论(0) 推荐(0)

欣欣姐

03 2021 档案

公告