摘要: 通过Unix命令使用Streaming 使用命令行方式的时候,输入数据必须为文本,并且每行被视为一个记录。若输入的格式是TextInputFormat,则流操作只会将值传递给mapper 提取第二列数据 input/output:指定输入输出目录 cut -f 2:只取第二列数据 -d ,:指定", 阅读全文
posted @ 2020-12-08 09:33 vlj 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 数据 标称型和数值型 算法 归一化处理:防止数值较大的特征对距离产生较大影响 计算欧式距离:测试样本与训练集 排序:选取前k个距离,统计频数(出现次数)最多的类别 1 def classify0(inX, dataSet, labels, k): 2 ''' 3 4 :param inX: 测试样本 阅读全文
posted @ 2019-03-12 22:29 vlj 阅读(931) 评论(0) 推荐(0) 编辑
摘要: 这一次我的学习笔记就不直接用官方文档的形式来写了了,而是写成类似于“知识图谱”的形式,以供日后参考。 下面是所谓“知识图谱”,有什么用呢? 1.知道有什么操作(英文可以不看) 2.展示本篇笔记的结构 3.以后忘记某个函数某个参数时,方便查询 原来写的地方是,那儿的代码看起来会舒服很多: https: 阅读全文
posted @ 2018-11-19 16:16 vlj 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 阅读之前假定你已经有了python内置的list和dict的基础.这里内容几乎是官方文档的翻译版本. 概览: ​ 原来的文档是在一个地方,那边的代码看起来舒服些 https://www.yuque.com/u86460/dgt6mu/bx0m4g 一个要铭记在新的基本特点是 数据对齐 要点:索引,轴 阅读全文
posted @ 2018-11-17 14:20 vlj 阅读(3024) 评论(0) 推荐(0) 编辑
摘要: 一:上代码 #比例法def rate_method(p,n): lst =[] #保存各组席位数 sum_ =sum(p) #人数和 k =0#临时变量 for i in p: lst.append(i/sum_*n) k += int(i/sum_*n) while k!=n: max_ =0 f 阅读全文
posted @ 2018-10-29 11:32 vlj 阅读(2057) 评论(0) 推荐(0) 编辑
摘要: 库:re;selenium;requests 源码: from selenium import webdriverimport reimport requests def open_img(items): for item in items: item = re.sub('&','&',it 阅读全文
posted @ 2018-09-17 15:41 vlj 阅读(494) 评论(0) 推荐(0) 编辑
摘要: 机器学习题库汇总、机器学习面试题、算法面试、数学面试 阅读全文
posted @ 2021-06-04 08:58 vlj 阅读(620) 评论(0) 推荐(0) 编辑
摘要: 题目 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列的支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾 int pop() 从队列的开头移除并返回元素 int peek() 返回队列开头的元素 阅读全文
posted @ 2021-01-12 22:16 vlj 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 直接参考 Eclipse开发JavaWeb项目配置Tomcat,详细教程 如果缺了很多东西 缺了server:eclipse中添加server插件 安装JST Server Adapters 安装JST Server AdaptersExtensions 如果安装的时候卡住了:取消勾选Contact 阅读全文
posted @ 2020-12-26 16:35 vlj 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 特征选择 阅读全文
posted @ 2020-12-18 22:17 vlj 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 使用sklearn进行交叉验证 GroupKFold-小记 阅读全文
posted @ 2020-12-18 22:16 vlj 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 需求 实现猫狗图像二分类,数据描述如下 这个数据集的训练数据集中一共有25000张猫和狗的图片,其中猫、狗各12500张。在测试数据集中有12500张图片,其中猫、狗图片无序混杂,且无对应的标签。 官方网站:https://www.kaggle.com/c/dogs-vs-cats-redux-ke 阅读全文
posted @ 2020-12-16 00:29 vlj 阅读(1612) 评论(0) 推荐(0) 编辑
摘要: Reduce端的联结 reduce端联结,又称repartitioned join(重分区联结)或者reparationed sort-merge join(重分区排序-合并联结) reduce侧联结的主要问题是,混洗阶段消耗过大。 先看几个术语与概念 data source:数据源(类似MySql 阅读全文
posted @ 2020-12-08 20:25 vlj 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 顺序链接MapReduce作业 形如:mapreduce-1 | mapreduce-2 | mapreduce-3 在run函数中,继续写新的job,再通过JobClient.runJob()进行调用 @Override public int run(String[] args) throws E 阅读全文
posted @ 2020-12-08 11:57 vlj 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 为何使用combiner 减少洗牌的键值对数量 缓解数据倾斜问题 combiner的设计 combiner在数据转换上必须与reducer等价 若Reducer仅处理分配型函数(最大值/最小值/求和/计数),可以使用reducer为combiner 其他:自己设计combiner和reducer 求 阅读全文
posted @ 2020-12-08 10:26 vlj 阅读(125) 评论(0) 推荐(0) 编辑