摘要:
通过Unix命令使用Streaming 使用命令行方式的时候,输入数据必须为文本,并且每行被视为一个记录。若输入的格式是TextInputFormat,则流操作只会将值传递给mapper 提取第二列数据 input/output:指定输入输出目录 cut -f 2:只取第二列数据 -d ,:指定", 阅读全文
摘要:
数据 标称型和数值型 算法 归一化处理:防止数值较大的特征对距离产生较大影响 计算欧式距离:测试样本与训练集 排序:选取前k个距离,统计频数(出现次数)最多的类别 1 def classify0(inX, dataSet, labels, k): 2 ''' 3 4 :param inX: 测试样本 阅读全文
摘要:
这一次我的学习笔记就不直接用官方文档的形式来写了了,而是写成类似于“知识图谱”的形式,以供日后参考。 下面是所谓“知识图谱”,有什么用呢? 1.知道有什么操作(英文可以不看) 2.展示本篇笔记的结构 3.以后忘记某个函数某个参数时,方便查询 原来写的地方是,那儿的代码看起来会舒服很多: https: 阅读全文
摘要:
阅读之前假定你已经有了python内置的list和dict的基础.这里内容几乎是官方文档的翻译版本. 概览: 原来的文档是在一个地方,那边的代码看起来舒服些 https://www.yuque.com/u86460/dgt6mu/bx0m4g 一个要铭记在新的基本特点是 数据对齐 要点:索引,轴 阅读全文
摘要:
一:上代码 #比例法def rate_method(p,n): lst =[] #保存各组席位数 sum_ =sum(p) #人数和 k =0#临时变量 for i in p: lst.append(i/sum_*n) k += int(i/sum_*n) while k!=n: max_ =0 f 阅读全文
摘要:
库:re;selenium;requests 源码: from selenium import webdriverimport reimport requests def open_img(items): for item in items: item = re.sub('&','&',it 阅读全文
摘要:
机器学习题库汇总、机器学习面试题、算法面试、数学面试 阅读全文
摘要:
题目 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列的支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾 int pop() 从队列的开头移除并返回元素 int peek() 返回队列开头的元素 阅读全文
摘要:
直接参考 Eclipse开发JavaWeb项目配置Tomcat,详细教程 如果缺了很多东西 缺了server:eclipse中添加server插件 安装JST Server Adapters 安装JST Server AdaptersExtensions 如果安装的时候卡住了:取消勾选Contact 阅读全文
摘要:
需求 实现猫狗图像二分类,数据描述如下 这个数据集的训练数据集中一共有25000张猫和狗的图片,其中猫、狗各12500张。在测试数据集中有12500张图片,其中猫、狗图片无序混杂,且无对应的标签。 官方网站:https://www.kaggle.com/c/dogs-vs-cats-redux-ke 阅读全文
摘要:
Reduce端的联结 reduce端联结,又称repartitioned join(重分区联结)或者reparationed sort-merge join(重分区排序-合并联结) reduce侧联结的主要问题是,混洗阶段消耗过大。 先看几个术语与概念 data source:数据源(类似MySql 阅读全文
摘要:
顺序链接MapReduce作业 形如:mapreduce-1 | mapreduce-2 | mapreduce-3 在run函数中,继续写新的job,再通过JobClient.runJob()进行调用 @Override public int run(String[] args) throws E 阅读全文
摘要:
为何使用combiner 减少洗牌的键值对数量 缓解数据倾斜问题 combiner的设计 combiner在数据转换上必须与reducer等价 若Reducer仅处理分配型函数(最大值/最小值/求和/计数),可以使用reducer为combiner 其他:自己设计combiner和reducer 求 阅读全文