02 2020 档案
摘要:1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop
阅读全文
摘要:1.在管理节点使用:start-yarn.sh 2.在两个resourmanager节点分别使用:yarn-daemon.sh start resourcemanager
阅读全文
摘要:一、背景 在Hadoop HA模式下,如果直接kill掉active namenode,standby namenode没有自动切换到active状态。 二、问题解决步骤 1. 查看hadoop安装目录下 etc/hadoop/hadoop-root-zkfc-fang16.hadoop.com.l
阅读全文
摘要:一、安装hadoop、HA及配置journalnode 实现namenode HA 实现resourcemanager HA namenode节点之间通过journalnode同步元数据 首先下载需要版本的hadoop,我用的版本是hadoop-2.9.1 安装到5台机器上 master1 mast
阅读全文
摘要:在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查
阅读全文
摘要:假如我们只有3台linux虚拟机,主机名分别为hadoop01、hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下: hadoop01:1个namenode,1个datanode,1个journalnode,1个zkfc,1个resourcemanager,1个nod
阅读全文
摘要:查看CentOS7 监听端口命令:ss -nal
阅读全文
摘要:NameNode之间共享数据(NFS 、Quorum Journal Node(用得多)) 两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。stan
阅读全文
摘要:前言 最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What i
阅读全文
摘要:CentOS 7.0默认使用的是firewall作为防火墙 查看防火墙状态 firewall-cmd --state 1 停止firewall systemctl stop firewalld.service 1 禁止firewall开机启动 systemctl disable firewalld.
阅读全文
摘要:1、hosts文件,路径:/etc/hosts,此文间是在网络上使用的,用于解析计算机名称和IP地址的映射关系,功能相当于windows下面的c:\windows\system32\drivers\etc\hosts文件,如果想使用计算机名称来访问对方的主机,需要把对方计算机的名称和IP地址写到本机
阅读全文
摘要:http://mirror.centos.org/centos/7/isos/
阅读全文
摘要:1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windo
阅读全文
摘要:1、:0,:1,gg都可以到第一行2、shift+g到末行3、或者:$=检查总行数比如24,:24到第24行
阅读全文
摘要:搜狐开源镜像站:http://mirrors.sohu.com/ 网易开源镜像站:http://mirrors.163.com/ 开源中国:http://mirrors.oschina.net/ 首都在线科技股份有限公司:http://mirrors.yun-idc.com/ 阿里云开源镜像:htt
阅读全文
摘要:安装与Spark相关的其他组件的时候,例如JDK,Hadoop,Yarn,Hive,Kafka等,要考虑到这些组件和Spark的版本兼容关系。这个对应关系可以在Spark源代码的pom.xml文件中查看。 一、 下载Spark源代码 打开网址https://github.com/apache/spa
阅读全文
摘要:参考: pip "Cannot uninstall 'six'. It is a distutils installed project..." 解决方法 在升级 six 时遇到无法安装的问题,错误日志如下: Cannot uninstall 'six'. It is a distutils ins
阅读全文
摘要:第一联为记账联,是销货方核算销售额和销项税额的主要凭证,即销售方记账凭证。 第二联为税款抵扣联,是购货方计算进项税额的证明,由购货方取得该联后,按税务机关的规定,依照取得的时间顺序编号,装订成册,送税务机关备查。 第三联为发票联,收执方作为付款或收款原始凭证,属于商事凭证,即购买方记账凭证。 以前,
阅读全文
摘要:获取表字段: select * from user_tab_columns where Table_Name='用户表' order by column_name 获取表注释: select * from user_tab_comments where Table_Name='用户表' order
阅读全文
摘要:PL/SQL Developer使用技巧、快捷键 1、类SQL PLUS窗口:File->New->Command Window,这个类似于oracle的客户端工具sql plus,但比它好用多了。 2、设置关键字自动大写:Tools->Preferences->Editor,将Keyword ca
阅读全文
摘要:1、工具--》首选项 2、编辑器--》编辑 3、定义快捷键 -- 》 保存 4、快捷键+回车就可以出现
阅读全文
摘要:语法: with tempName as (select ....)select ... 例:现在要从1-19中得到11-14。一般的sql如下: select * from( --模拟生一个20行的数据 SELECT LEVEL AS lv FROM DUAL CONNECT BY LEVEL <
阅读全文
摘要:树查询 使用树查询的前提条件是: 在一条记录中记录了当前节点的ID和这个节点的父ID。 注意:一旦数据中出现了循环记录,如两个节点互为对方的父结点,系统就会报 ORA-01436错误(ORA-01436: 用户数据中的CONNECT BY 循环) 第一步:创建表 create table MENU
阅读全文
摘要:oracle的start with connect by prior是根据条件递归查询"树",分为四种使用情况: 第一种:start with 子节点ID='...' connect by prior 子节点ID = 父节点ID 1 select * from mdm_organization o
阅读全文
摘要:日期及日期格式: 获取系统日期: sysdate() 格式化日期 to_char(sysdate(),'yyyy-mm-dd,hh24:mi:ss') to_date(sysdate(),'yyyy-mm-dd,hh24:mi:ss') 注: to_char 把日期或数字转换为字符串 to_char
阅读全文
摘要:2019年起一般纳税人和小规模纳税人的区别
阅读全文
摘要:在处理数据的时候,很多时候会遇到批量替换的情况,如果一个一个去修改效率过低,也容易出错。replace()是很好的方法。 源数据 1、替换全部或者某一行 replace的基本结构是:df.replace(to_replace, value) 前面是需要替换的值,后面是替换后的值。 例如我们要将南岸改
阅读全文
摘要:原文链接:https://www.jianshu.com/p/f773b4b82c66 value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对
阅读全文
摘要:一、方法1: 单文件模块直接把文件拷贝到 $python_dir/Lib二、方法2: 多文件模块,带setup.py下载模块包(压缩文件zip或tar.gz),进行解压,CMD->cd进入模块文件夹,执行:python setup.py install三、 方法3:easy_install 方式 先
阅读全文
摘要:预处理数据的方法总结(使用sklearn-preprocessing)
阅读全文
摘要:python时间序列分析之_用pandas中的rolling函数计算时间窗口数据
阅读全文
摘要:Solr各版本发布时间、对应的JDK版本、Jetty版本
阅读全文
摘要:结巴分词(有不同语言版本,例如:python、java、Node.js ........)
阅读全文
摘要:ChineseAnalyzer for Whoosh 搜索引擎
阅读全文
摘要:用户流失预警—机器学习分类简单案例分析
阅读全文
摘要:Python 数据清洗之缺失数据滤除dropna()
阅读全文
摘要:当打开存.csv文件的页面时,不用直接点击页面的Download,这样会使csv文件直接用浏览器打开。 要点击Raw按钮,鼠标右键,文件另存为,可以直接把csv文件下载到本地。
阅读全文
摘要:
阅读全文
摘要:python中pip 安装、升级、升级固定的包
阅读全文
摘要:今天用pip安装skimage时报错: 这是因为网络的问题,需要使用国内的镜像源来加速,比如豆瓣源 命令改为: pip install scikit-image -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com 或者 p
阅读全文
摘要:对于安装whl格式的文件,首先要安装wheel包 利用 pip install wheel或下载再安装: 下载地址: https://pypi.python.org/pypi/wheel 解压后安装: 安装完成后就可以,直接安装wheel文件了 例如下载 安装cryptography-1.8.1-c
阅读全文
摘要:为了建模,处理不平衡数据,想使用SMOTEENN方法进行数据平衡处理,为此需要下载对应的包imblearn 最开始直接从anaconda中进行: conda install imblearn 报错说源中没有对应的包 于是将安装语句改为改为: conda install -c glemaitre im
阅读全文
摘要:在python中运行导入以下模块 from sklearn.model_selection import train_test_split 出现错误: No module named ‘sklearn.model_selection 运行 Anaconda Prompt,输入conda list 查
阅读全文
摘要:scikit-learn (sklearn) 官方文档中文版
阅读全文
摘要:传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。 1. 获取数据 1.1 导入s
阅读全文
摘要:网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档。 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常详细,同时许多人对官方文档的理解和结构上都不能很好地把握,我也打算好好学习sklearn,这可能是机
阅读全文
摘要:线性回归理解(附纯python实现)
阅读全文
摘要:map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each
阅读全文
摘要:1.reduceByKey(func) 功能: 使用 func 函数合并具有相同键的值。 示例: 1 2 3 4 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd =
阅读全文
摘要:参考链接:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143178254193589df9c612d2449618ea460e7a672a366000?tdsourceta
阅读全文
摘要:2.2 logistic回归损失函数(非常重要,深入理解) 上一节当中,为了能够训练logistic回归模型的参数w和b,需要定义一个成本函数 使用logistic回归训练的成本函数 为了让模型通过学习来调整参数,要给出一个含有m和训练样本的训练集 很自然的,希望通过训练集找到参数w和b,来得到自己
阅读全文
摘要:Logistic回归算法梯度公式的推导
阅读全文