2020 年 2月随笔档案 - 技术研究与问题解决

向hdfs上传文件，运行程序，查看结果

摘要：1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop 阅读全文

posted @ 2020-02-29 19:44 技术研究与问题解决阅读(562) 评论(0) 推荐(0) 编辑

启动yarn集群

摘要：1.在管理节点使用：start-yarn.sh 2.在两个resourmanager节点分别使用：yarn-daemon.sh start resourcemanager 阅读全文

posted @ 2020-02-29 19:18 技术研究与问题解决阅读(417) 评论(0) 推荐(1) 编辑

hadoop ha模式下，kill active的namenode节点后，standby的namenode节点没能自动启动

摘要：一、背景在Hadoop HA模式下，如果直接kill掉active namenode，standby namenode没有自动切换到active状态。二、问题解决步骤 1. 查看hadoop安装目录下 etc/hadoop/hadoop-root-zkfc-fang16.hadoop.com.l 阅读全文

posted @ 2020-02-29 16:25 技术研究与问题解决阅读(853) 评论(0) 推荐(0) 编辑

Hadoop2.6.5单机安装

摘要：Hadoop2.6.5单机安装阅读全文

posted @ 2020-02-29 14:09 技术研究与问题解决阅读(90) 评论(0) 推荐(0) 编辑

hadoop HA集群搭建

摘要：一、安装hadoop、HA及配置journalnode 实现namenode HA 实现resourcemanager HA namenode节点之间通过journalnode同步元数据首先下载需要版本的hadoop，我用的版本是hadoop-2.9.1 安装到5台机器上 master1 mast 阅读全文

posted @ 2020-02-28 21:21 技术研究与问题解决阅读(216) 评论(0) 推荐(0) 编辑

hadoop搭建HA集群之后不能自动切换namenode

摘要：在搭好HA集群之后，想测试一下集群的高可用性，于是先把active的namenode给停掉： hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。但是通过hdfs haadmin -getServiceState master1 查阅读全文

posted @ 2020-02-28 18:20 技术研究与问题解决阅读(948) 评论(0) 推荐(1) 编辑

hadoop集群之HDFS和YARN启动和停止命令

摘要：假如我们只有3台linux虚拟机，主机名分别为hadoop01、hadoop02和hadoop03，在这3台机器上，hadoop集群的部署情况如下： hadoop01：1个namenode，1个datanode，1个journalnode，1个zkfc，1个resourcemanager，1个nod 阅读全文

posted @ 2020-02-28 16:45 技术研究与问题解决阅读(333) 评论(0) 推荐(0) 编辑

查看CentOS7 监听端口命令

摘要：查看CentOS7 监听端口命令：ss -nal 阅读全文

posted @ 2020-02-28 16:37 技术研究与问题解决阅读(2226) 评论(0) 推荐(0) 编辑

JournalNode的作用

摘要：NameNode之间共享数据（NFS 、Quorum Journal Node（用得多））两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。stan 阅读全文

posted @ 2020-02-28 13:33 技术研究与问题解决阅读(631) 评论(0) 推荐(0) 编辑

Secondary NameNode:它究竟有什么作用？

摘要：前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为，Secondary NameNode是NameNode的备份，是为了防止NameNode的单点失败的，直到读了这篇文章Secondary Namenode - What i 阅读全文

posted @ 2020-02-28 10:45 技术研究与问题解决阅读(316) 评论(0) 推荐(0) 编辑

CentOS7查看和关闭防火墙

摘要：CentOS 7.0默认使用的是firewall作为防火墙查看防火墙状态 firewall-cmd --state 1 停止firewall systemctl stop firewalld.service 1 禁止firewall开机启动 systemctl disable firewalld. 阅读全文

posted @ 2020-02-28 09:52 技术研究与问题解决阅读(111) 评论(0) 推荐(0) 编辑

关于Hosts与network的异同之处

摘要：1、hosts文件，路径：/etc/hosts,此文间是在网络上使用的，用于解析计算机名称和IP地址的映射关系，功能相当于windows下面的c:\windows\system32\drivers\etc\hosts文件，如果想使用计算机名称来访问对方的主机，需要把对方计算机的名称和IP地址写到本机阅读全文

posted @ 2020-02-27 22:07 技术研究与问题解决阅读(367) 评论(0) 推荐(0) 编辑

CentOS下载地址

摘要：http://mirror.centos.org/centos/7/isos/ 阅读全文

posted @ 2020-02-27 20:02 技术研究与问题解决阅读(145) 评论(0) 推荐(0) 编辑

hadoop-2.7.1伪分布环境搭建

摘要：1.准备Linux环境 1.0 点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.8.0 子网掩码：255.255.255.0 -> apply -> ok 回到windo 阅读全文

posted @ 2020-02-27 18:10 技术研究与问题解决阅读(171) 评论(0) 推荐(0) 编辑

linux vi编辑器光标跳到文件末尾

摘要：1、:0,:1,gg都可以到第一行2、shift+g到末行3、或者:$=检查总行数比如24，:24到第24行阅读全文

posted @ 2020-02-27 17:51 技术研究与问题解决阅读(6885) 评论(0) 推荐(1) 编辑

开源网站镜像

摘要：搜狐开源镜像站：http://mirrors.sohu.com/ 网易开源镜像站：http://mirrors.163.com/ 开源中国：http://mirrors.oschina.net/ 首都在线科技股份有限公司：http://mirrors.yun-idc.com/ 阿里云开源镜像：htt 阅读全文

posted @ 2020-02-27 14:53 技术研究与问题解决阅读(207) 评论(0) 推荐(0) 编辑

查看Spark与Hadoop等其他组件的兼容版本

摘要：安装与Spark相关的其他组件的时候，例如JDK，Hadoop，Yarn，Hive，Kafka等，要考虑到这些组件和Spark的版本兼容关系。这个对应关系可以在Spark源代码的pom.xml文件中查看。一、下载Spark源代码打开网址https://github.com/apache/spa 阅读全文

posted @ 2020-02-27 13:53 技术研究与问题解决阅读(3621) 评论(0) 推荐(0) 编辑

pip "Cannot uninstall 'six'. It is a distutils installed project..." 解决方法

摘要：参考： pip "Cannot uninstall 'six'. It is a distutils installed project..." 解决方法在升级 six 时遇到无法安装的问题，错误日志如下： Cannot uninstall 'six'. It is a distutils ins 阅读全文

posted @ 2020-02-27 10:39 技术研究与问题解决阅读(258) 评论(0) 推荐(0) 编辑

增值税专用发票联次

摘要：第一联为记账联，是销货方核算销售额和销项税额的主要凭证，即销售方记账凭证。第二联为税款抵扣联，是购货方计算进项税额的证明，由购货方取得该联后，按税务机关的规定，依照取得的时间顺序编号，装订成册，送税务机关备查。第三联为发票联，收执方作为付款或收款原始凭证，属于商事凭证，即购买方记账凭证。以前，阅读全文

posted @ 2020-02-25 16:17 技术研究与问题解决阅读(523) 评论(0) 推荐(0) 编辑

Oracle 查询表信息（字段+备注）

摘要：获取表字段： select * from user_tab_columns where Table_Name='用户表' order by column_name 获取表注释： select * from user_tab_comments where Table_Name='用户表' order 阅读全文

posted @ 2020-02-24 16:13 技术研究与问题解决阅读(488) 评论(0) 推荐(0) 编辑

PL/SQL快键键——自动替换(输入sf直接跳出来select * from)

摘要：PL/SQL Developer使用技巧、快捷键 1、类SQL PLUS窗口:File->New->Command Window，这个类似于oracle的客户端工具sql plus，但比它好用多了。 2、设置关键字自动大写:Tools->Preferences->Editor，将Keyword ca 阅读全文

posted @ 2020-02-23 07:56 技术研究与问题解决阅读(1794) 评论(0) 推荐(0) 编辑

pl/sql快速输入select * from等语句快捷键设置

摘要：1、工具--》首选项 2、编辑器--》编辑 3、定义快捷键 -- 》保存 4、快捷键+回车就可以出现阅读全文

posted @ 2020-02-23 07:48 技术研究与问题解决阅读(498) 评论(0) 推荐(0) 编辑

ORACLE WITH AS 用法

摘要：语法： with tempName as (select ....)select ... 例：现在要从1-19中得到11-14。一般的sql如下： select * from( --模拟生一个20行的数据 SELECT LEVEL AS lv FROM DUAL CONNECT BY LEVEL < 阅读全文

posted @ 2020-02-22 20:27 技术研究与问题解决阅读(490) 评论(0) 推荐(0) 编辑

ORACLE不常用但实用的技巧- 树查询 level用法

摘要：树查询使用树查询的前提条件是：在一条记录中记录了当前节点的ID和这个节点的父ID。注意:一旦数据中出现了循环记录，如两个节点互为对方的父结点，系统就会报 ORA-01436错误(ORA-01436: 用户数据中的CONNECT BY 循环) 第一步：创建表 create table MENU 阅读全文

posted @ 2020-02-22 18:07 技术研究与问题解决阅读(379) 评论(0) 推荐(0) 编辑

oracle的start with connect by prior如何使用

摘要：oracle的start with connect by prior是根据条件递归查询"树"，分为四种使用情况：　第一种：start with 子节点ID='...' connect by prior 子节点ID = 父节点ID 1 select * from mdm_organization o 阅读全文

posted @ 2020-02-22 18:01 技术研究与问题解决阅读(136) 评论(0) 推荐(0) 编辑

Oracle SQL日期及日期格式获取命令

摘要：日期及日期格式：获取系统日期： sysdate() 格式化日期 to_char(sysdate(),'yyyy-mm-dd,hh24:mi:ss') to_date(sysdate(),'yyyy-mm-dd,hh24:mi:ss') 注： to_char 把日期或数字转换为字符串 to_char 阅读全文

posted @ 2020-02-22 16:41 技术研究与问题解决阅读(368) 评论(0) 推荐(0) 编辑

2019年起一般纳税人和小规模纳税人的区别

摘要：2019年起一般纳税人和小规模纳税人的区别阅读全文

posted @ 2020-02-19 18:19 技术研究与问题解决阅读(76) 评论(0) 推荐(0) 编辑

10.pandas的替换和部分替换（replace）

摘要：在处理数据的时候，很多时候会遇到批量替换的情况，如果一个一个去修改效率过低，也容易出错。replace()是很好的方法。源数据 1、替换全部或者某一行 replace的基本结构是：df.replace(to_replace, value) 前面是需要替换的值，后面是替换后的值。例如我们要将南岸改阅读全文

posted @ 2020-02-18 18:19 技术研究与问题解决阅读(2965) 评论(0) 推荐(0) 编辑

pandas中.value_counts()的用法

摘要：原文链接：https://www.jianshu.com/p/f773b4b82c66 value_counts()是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。value_counts()是Series拥有的方法，一般在DataFrame中使用时，需要指定对阅读全文

posted @ 2020-02-18 17:55 技术研究与问题解决阅读(707) 评论(0) 推荐(0) 编辑

Python模块/包/库安装几种方法(转载)

摘要：一、方法1：单文件模块直接把文件拷贝到 $python_dir/Lib二、方法2：多文件模块，带setup.py下载模块包（压缩文件zip或tar.gz），进行解压，CMD->cd进入模块文件夹，执行：python setup.py install三、方法3：easy_install 方式先阅读全文

posted @ 2020-02-15 19:21 技术研究与问题解决阅读(168) 评论(0) 推荐(0) 编辑

预处理数据的方法总结（使用sklearn-preprocessing）

摘要：预处理数据的方法总结（使用sklearn-preprocessing）阅读全文

posted @ 2020-02-15 16:23 技术研究与问题解决阅读(261) 评论(0) 推荐(0) 编辑

python时间序列分析之_用pandas中的rolling函数计算时间窗口数据

摘要：python时间序列分析之_用pandas中的rolling函数计算时间窗口数据阅读全文

posted @ 2020-02-15 14:09 技术研究与问题解决阅读(795) 评论(0) 推荐(0) 编辑

Solr各版本发布时间、对应的JDK版本、Jetty版本

摘要：Solr各版本发布时间、对应的JDK版本、Jetty版本阅读全文

posted @ 2020-02-15 11:39 技术研究与问题解决阅读(320) 评论(0) 推荐(0) 编辑

结巴分词（有不同语言版本，例如：python、java、Node.js ........）

摘要：结巴分词（有不同语言版本，例如：python、java、Node.js ........）阅读全文

posted @ 2020-02-15 11:13 技术研究与问题解决阅读(404) 评论(0) 推荐(0) 编辑

ChineseAnalyzer for Whoosh 搜索引擎

摘要：ChineseAnalyzer for Whoosh 搜索引擎阅读全文

posted @ 2020-02-15 11:00 技术研究与问题解决阅读(356) 评论(0) 推荐(0) 编辑

用户流失预警—机器学习分类简单案例分析

摘要：用户流失预警—机器学习分类简单案例分析阅读全文

posted @ 2020-02-14 14:50 技术研究与问题解决阅读(218) 评论(0) 推荐(0) 编辑

Python 数据清洗之缺失数据滤除dropna（）

摘要：Python 数据清洗之缺失数据滤除dropna（）阅读全文

posted @ 2020-02-14 12:36 技术研究与问题解决阅读(210) 评论(0) 推荐(0) 编辑

如何从GitHub下载csv文件

摘要：当打开存.csv文件的页面时，不用直接点击页面的Download，这样会使csv文件直接用浏览器打开。要点击Raw按钮，鼠标右键，文件另存为，可以直接把csv文件下载到本地。阅读全文

posted @ 2020-02-13 16:42 技术研究与问题解决阅读(1590) 评论(0) 推荐(0) 编辑

numpy Array[:,]的取值方法

摘要：阅读全文

posted @ 2020-02-13 13:20 技术研究与问题解决阅读(156) 评论(0) 推荐(0) 编辑

决策树、随机森林结果可视化

摘要：决策树、随机森林结果可视化阅读全文

posted @ 2020-02-11 12:49 技术研究与问题解决阅读(678) 评论(0) 推荐(0) 编辑

ModuleNotFoundError: No module named 'numpy.testing.nosetester'

摘要：阅读全文

posted @ 2020-02-11 10:36 技术研究与问题解决阅读(1263) 评论(0) 推荐(0) 编辑

python中pip安装、升级、升级指定的包

摘要：python中pip 安装、升级、升级固定的包阅读全文

posted @ 2020-02-11 10:07 技术研究与问题解决阅读(638) 评论(0) 推荐(0) 编辑

pip安装python包出错：Could not find a version that satisfies the requirement skimage (from versions: )

摘要：今天用pip安装skimage时报错：这是因为网络的问题，需要使用国内的镜像源来加速,比如豆瓣源命令改为： pip install scikit-image -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com 或者 p 阅读全文

posted @ 2020-02-11 08:37 技术研究与问题解决阅读(636) 评论(0) 推荐(0) 编辑

python 安装whl文件

摘要：对于安装whl格式的文件，首先要安装wheel包利用 pip install wheel或下载再安装：下载地址： https://pypi.python.org/pypi/wheel 解压后安装：安装完成后就可以，直接安装wheel文件了例如下载安装cryptography-1.8.1-c 阅读全文

posted @ 2020-02-09 21:18 技术研究与问题解决阅读(1640) 评论(0) 推荐(0) 编辑

python中使用anaconda对不平衡数据的处理包imblearn的安装

摘要：为了建模，处理不平衡数据，想使用SMOTEENN方法进行数据平衡处理，为此需要下载对应的包imblearn 最开始直接从anaconda中进行： conda install imblearn 报错说源中没有对应的包于是将安装语句改为改为： conda install -c glemaitre im 阅读全文

posted @ 2020-02-09 20:37 技术研究与问题解决阅读(2593) 评论(0) 推荐(0) 编辑

数据分析-合辑

摘要：数据分析-合辑阅读全文

posted @ 2020-02-08 21:33 技术研究与问题解决阅读(70) 评论(0) 推荐(0) 编辑

No module named ‘sklearn.model_selection解决办法

摘要：在python中运行导入以下模块 from sklearn.model_selection import train_test_split 出现错误： No module named ‘sklearn.model_selection 运行 Anaconda Prompt，输入conda list 查阅读全文

posted @ 2020-02-07 13:17 技术研究与问题解决阅读(937) 评论(0) 推荐(0) 编辑

scikit-learn (sklearn) 官方文档中文版

摘要：scikit-learn (sklearn) 官方文档中文版阅读全文

posted @ 2020-02-07 11:55 技术研究与问题解决阅读(219) 评论(0) 推荐(0) 编辑

ML神器：sklearn的快速使用

摘要：传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。本文我们将依据传统机器学习的流程，看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。 1. 获取数据 1.1 导入s 阅读全文

posted @ 2020-02-06 18:55 技术研究与问题解决阅读(210) 评论(0) 推荐(0) 编辑

Python机器学习笔记：sklearn库的学习

摘要：网上有很多关于sklearn的学习教程，大部分都是简单的讲清楚某一方面，其实最好的教程就是官方文档。官方文档地址：https://scikit-learn.org/stable/ （可是官方文档非常详细，同时许多人对官方文档的理解和结构上都不能很好地把握，我也打算好好学习sklearn，这可能是机阅读全文

posted @ 2020-02-06 18:50 技术研究与问题解决阅读(243) 评论(0) 推荐(0) 编辑

线性回归理解（附纯python实现）

摘要：线性回归理解（附纯python实现）阅读全文

posted @ 2020-02-05 20:36 技术研究与问题解决阅读(168) 评论(0) 推荐(0) 编辑

Flatmap 和map 区别

摘要：map将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回 map函数的源码： def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each 阅读全文

posted @ 2020-02-05 14:59 技术研究与问题解决阅读(2176) 评论(0) 推荐(0) 编辑

【spark】常用转换操作：reduceByKey和groupByKey

摘要：1.reduceByKey(func) 功能：使用 func 函数合并具有相同键的值。示例： 1 2 3 4 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = 阅读全文

posted @ 2020-02-05 14:07 技术研究与问题解决阅读(403) 评论(0) 推荐(0) 编辑

python中的Iterable对象和Iterator

摘要：参考链接：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/00143178254193589df9c612d2449618ea460e7a672a366000?tdsourceta 阅读全文

posted @ 2020-02-05 10:21 技术研究与问题解决阅读(156) 评论(0) 推荐(0) 编辑

logistic回归损失函数（非常重要，深入理解）

摘要：2.2 logistic回归损失函数（非常重要，深入理解）上一节当中，为了能够训练logistic回归模型的参数w和b，需要定义一个成本函数使用logistic回归训练的成本函数为了让模型通过学习来调整参数，要给出一个含有m和训练样本的训练集很自然的，希望通过训练集找到参数w和b，来得到自己阅读全文

posted @ 2020-02-03 22:20 技术研究与问题解决阅读(1295) 评论(0) 推荐(0) 编辑

Logistic回归算法梯度公式的推导

摘要：Logistic回归算法梯度公式的推导阅读全文

posted @ 2020-02-03 19:58 技术研究与问题解决阅读(121) 评论(0) 推荐(0) 编辑

02 2020 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论