03 2020 档案
摘要:1 完整的机器学习项目 完成项目的步骤: (1) 项目概述 (2) 获取数据 (3) 发现并可视化数据,发现规律。 (4) 为机器学习算法准备数据。 (5) 选择模型,进行训练。 (6) 微调模型。 (7) 给出解决方案。 (8) 部署、监控、维护系统。 1.1 使用真实数据 学习机器学习时,最好使
阅读全文
摘要:1 python基础知识 1.1 简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。支持多种平台。下载安装https://www.python.org/,在系统环境变量path中加入python的安装目录。有三种编写方式 (1) 交互式解释器。可以在cmd输入pyt
阅读全文
摘要:1.创建虚拟环境 因为项目采用不同版本的python,所依赖的库的版本也不一样,为了避免版本冲突,为每一个项目每个python版本创建一个虚拟环境,环境中所使用的依赖库也是独立存在,不会被其他版本或其他项目的库影响。 (1)基于python版本创建虚拟环境 在pycharm的file-setting
阅读全文
摘要:1 机器学习概览 1.1 机器学习定义 计算机程序利用经验E学习任务T,他的性能P会随着经验E不断增长。例如垃圾邮件过滤器,传统的编程技术只是针对指定的关键词(credit card,sale house)进行过滤。如果出现新的关键词保险,则需要更新标记。基于机器学习的垃圾邮件过滤器会自动检测保险关
阅读全文
摘要:1.1 维护 1.1.1 日常管理过程 (1) namenode元数据备份 使用dfsadmin下载最新的fsimage镜像文件 hdfs dfsadmin –fetchImage fsimage.backup (2) 数据备份 hadoop复本机制仍然可能导致重要数据丢失,所以要将优先级高的数据进
阅读全文
摘要:1.1 监控 检测集群的健康状态,避免宕机。 1.1.1 日志 访问http://resource-manager-host:8088/logLevel去设置日志级别,用于排查问题。 或者用命令hadoop daemonlog –setlevel resource-manager-host:8088
阅读全文
摘要:(1) dfsadmin管理控制工具 查看hdfs的状态,切换安全模式,保存新的fsimage镜像,重置edits文件等 (2) fsck工具(file system check) fsck工具从namenode获取文件系统的信息,检测文件系统总字节数,文件夹数,文件数,数据块数,满足最小复制条件的
阅读全文
摘要:1.1.1 安全模式 安全模式是文件系统只读不写的过程,一般在载入旧镜像,执行编辑日志,生成新镜像和空编辑日志文件的过程中。datanode存储数据块列表,namenode存储块的位置信息。datanode定期向namenode发送最新的块列表信息。如果某个块复本数量少于最小复本级别(dfs.nam
阅读全文
摘要:1.1.1 永久性数据结构 namenode的目录结构如下图 (1) VERSION属性文件 namespaceid文件系统命名空间唯一标识。 clusterID是将HDFS集群作为一个整体赋予的唯一标识符。 blockpoolID是数据块池的唯一标识。 CTime是namenode存储系统创建时间
阅读全文
摘要:1.1 基准评测程序测试hadoop集群 通过运行测试作业,用测试结果和资源检测结果来判断集群的性能,调整设置进行优化。最好在刚搭建好集群时测试。通过运行高强度的IO操作评测程序检测硬盘故障。 1.1.1 hadoop基准评测程序 (1)测试IO读写 hadoop自带基准评测程序,在D:\hadoo
阅读全文
摘要:1.1 安全性 HDFS的文件许可模块可以组织程序漏洞而毁坏文件系统,也能阻止运行hadoop fs –rmr删除文件指令,但是无法组织恶意的用户假冒root身份来访问或者删除数据。需要使用Kerberos实现用户认证。 1.1.1 Kerberos和Hadoop (1)客户端请求认证的步骤 1)
阅读全文
摘要:1.1 hadoop配置 hadoop配置文件在安装包的etc/hadoop目录下,但是为了方便升级,配置不被覆盖一般放在其他地方,并用环境变量HADOOP_CONF_DIR指定目录。 1.1.1 配置管理 集群中每个节点都维护一套配置文件,并由管理员完成文件的同步工作。集群管理工具Cloudera
阅读全文