2020 年 3月随笔档案 - 一字千金

3.Scikit-Learn实现完整的机器学习项目

摘要：1 完整的机器学习项目完成项目的步骤： (1) 项目概述 (2) 获取数据 (3) 发现并可视化数据，发现规律。 (4) 为机器学习算法准备数据。 (5) 选择模型，进行训练。 (6) 微调模型。 (7) 给出解决方案。 (8) 部署、监控、维护系统。 1.1 使用真实数据学习机器学习时，最好使阅读全文

posted @ 2020-03-30 21:21 一字千金阅读(1410) 评论(1) 推荐(0) 编辑

python快速入门-有C++或java基础

摘要：1 python基础知识 1.1 简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。支持多种平台。下载安装https://www.python.org/，在系统环境变量path中加入python的安装目录。有三种编写方式（1）交互式解释器。可以在cmd输入pyt 阅读全文

posted @ 2020-03-17 15:16 一字千金阅读(383) 评论(0) 推荐(0) 编辑

pycharm创建虚拟环境venv和添加依赖库package

摘要：1.创建虚拟环境因为项目采用不同版本的python，所依赖的库的版本也不一样，为了避免版本冲突，为每一个项目每个python版本创建一个虚拟环境，环境中所使用的依赖库也是独立存在，不会被其他版本或其他项目的库影响。（1）基于python版本创建虚拟环境在pycharm的file-setting 阅读全文

posted @ 2020-03-13 21:04 一字千金阅读(19056) 评论(0) 推荐(3) 编辑

1.机器学习简述

摘要：1 机器学习概览 1.1 机器学习定义计算机程序利用经验E学习任务T，他的性能P会随着经验E不断增长。例如垃圾邮件过滤器，传统的编程技术只是针对指定的关键词（credit card，sale house）进行过滤。如果出现新的关键词保险，则需要更新标记。基于机器学习的垃圾邮件过滤器会自动检测保险关阅读全文

posted @ 2020-03-12 16:58 一字千金阅读(458) 评论(0) 推荐(0) 编辑

11.3hadoop 维护：备份、委任解除节点、升级

摘要：1.1 维护 1.1.1 日常管理过程（1） namenode元数据备份使用dfsadmin下载最新的fsimage镜像文件 hdfs dfsadmin –fetchImage fsimage.backup （2）数据备份 hadoop复本机制仍然可能导致重要数据丢失，所以要将优先级高的数据进阅读全文

posted @ 2020-03-11 10:24 一字千金阅读(404) 评论(0) 推荐(0) 编辑

11.2hadoop监控：日志配置、堆栈跟踪、度量和JMX

摘要：1.1 监控检测集群的健康状态，避免宕机。 1.1.1 日志访问http://resource-manager-host:8088/logLevel去设置日志级别，用于排查问题。或者用命令hadoop daemonlog –setlevel resource-manager-host:8088 阅读全文

posted @ 2020-03-11 10:21 一字千金阅读(491) 评论(0) 推荐(0) 编辑

11.1.3hadoop工具dfsadmin、fsck、数据库扫描器、均衡器

摘要：（1） dfsadmin管理控制工具查看hdfs的状态，切换安全模式，保存新的fsimage镜像，重置edits文件等（2） fsck工具（file system check） fsck工具从namenode获取文件系统的信息，检测文件系统总字节数，文件夹数，文件数，数据块数，满足最小复制条件的阅读全文

posted @ 2020-03-11 10:18 一字千金阅读(355) 评论(0) 推荐(0) 编辑

11.1.2hadoop 安全模式

摘要：1.1.1 安全模式安全模式是文件系统只读不写的过程，一般在载入旧镜像，执行编辑日志，生成新镜像和空编辑日志文件的过程中。datanode存储数据块列表，namenode存储块的位置信息。datanode定期向namenode发送最新的块列表信息。如果某个块复本数量少于最小复本级别（dfs.nam 阅读全文

posted @ 2020-03-11 10:13 一字千金阅读(306) 评论(0) 推荐(0) 编辑

11.1.1namenode和datanode的数据结构和格式以及镜像fsimage和编辑日志edit

摘要：1.1.1 永久性数据结构 namenode的目录结构如下图（1） VERSION属性文件 namespaceid文件系统命名空间唯一标识。 clusterID是将HDFS集群作为一个整体赋予的唯一标识符。 blockpoolID是数据块池的唯一标识。 CTime是namenode存储系统创建时间阅读全文

posted @ 2020-03-11 10:11 一字千金阅读(503) 评论(0) 推荐(0) 编辑

10.5 hadoop集群基准评测程序测试

摘要：1.1 基准评测程序测试hadoop集群通过运行测试作业，用测试结果和资源检测结果来判断集群的性能，调整设置进行优化。最好在刚搭建好集群时测试。通过运行高强度的IO操作评测程序检测硬盘故障。 1.1.1 hadoop基准评测程序（1）测试IO读写 hadoop自带基准评测程序，在D:\hadoo 阅读全文

posted @ 2020-03-11 10:06 一字千金阅读(556) 评论(0) 推荐(0) 编辑

10.4 hadoop安全性kerberos安全验证和委托令牌

摘要：1.1 安全性 HDFS的文件许可模块可以组织程序漏洞而毁坏文件系统，也能阻止运行hadoop fs –rmr删除文件指令，但是无法组织恶意的用户假冒root身份来访问或者删除数据。需要使用Kerberos实现用户认证。 1.1.1 Kerberos和Hadoop （1）客户端请求认证的步骤 1）阅读全文

posted @ 2020-03-01 22:57 一字千金阅读(780) 评论(0) 推荐(0) 编辑

10.3 hadoop地址配置、内存配置、守护进程设置、环境设置

摘要：1.1 hadoop配置 hadoop配置文件在安装包的etc/hadoop目录下，但是为了方便升级，配置不被覆盖一般放在其他地方，并用环境变量HADOOP_CONF_DIR指定目录。 1.1.1 配置管理集群中每个节点都维护一套配置文件，并由管理员完成文件的同步工作。集群管理工具Cloudera 阅读全文

posted @ 2020-03-01 17:38 一字千金阅读(3009) 评论(0) 推荐(0) 编辑

一字千金

03 2020 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论