摘要: 原文 一.Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源。文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的。 1.分片 我们将这一个个block划分成数据分片,即Split(分片,逻辑划分,不包含具体数据,只包含这些数据的位置信息),那么 阅读全文
posted @ 2019-04-25 18:05 持&恒 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它 阅读全文
posted @ 2019-04-25 15:24 持&恒 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 出现这种情况是因为分辨率设置问题,调整分辨率总能达到你想要的效果; 首先设置vmware为全屏模式 查看物理机的分辨率,然后再将虚拟机的分辨率设置了跟物理机的一致。完美解决 windows10查看分辨率 右键屏幕 -》显示设置 阅读全文
posted @ 2019-04-25 11:37 持&恒 阅读(3428) 评论(0) 推荐(0) 编辑