2020 年 7月随笔档案 - Tanglement

协同过滤推荐

摘要：推荐系统中的个性化推荐一定要有用户模型或用户记录。需要获取用户信息，有两种获取途径显式获取和隐式获取。协同过滤（CF，Collaborative Filtering）协同过滤推荐方法的主要思想是，利用已有用户群过去的行为或意见预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣。输入数据只有用户- 阅读全文

posted @ 2020-07-28 15:01 Tanglement 阅读(255) 评论(0) 推荐(0)

《并行机器学习算法基础体系前沿进展综述》学习笔记

摘要：2017年发表在计算机工程于应用。摘要总结和分析了传统机器学习算法在海量数据场景霞出现的若干问题，基于当代并行机分类回顾了国内外并行机器学习算法的研究现状，并归纳总结了并行机器学习算法在各种基础体系下存在的问题。引言传统机器学习算法在海量数据下计算代价高、延迟性高、无法处理所有数据，从根本上阅读全文

posted @ 2020-07-17 09:49 Tanglement 阅读(511) 评论(1) 推荐(0)

《分布式机器学习平台与算法综述》学习笔记

摘要：2019年3月发表于计算机科学。可在知网下载。本文内容摘要分布式机器学习的核心思想“分而治之”。分布式机器学习是机器学习的研究领域之一。分布式机器学习的主流平台有Spark、MXNet、Petuum、TensorFlow及PyTorch。本文对这些平台深入总结，分析对比其特性。其次，从数据并行阅读全文

posted @ 2020-07-16 17:00 Tanglement 阅读(915) 评论(0) 推荐(0)

Spark的Shuffle机制

摘要：什么是Shuffle 在RDD中，将每个相同key的value聚合起来。相同key的value可能在不同partition，也可能在不同节点。因此shuffle操作会影响多个节点。常见的shuffle操作有：groupByKey(),reduceBykey()等。 Shuffle Write和Re 阅读全文

posted @ 2020-07-16 08:40 Tanglement 阅读(360) 评论(0) 推荐(0)

Map Reduce的代码学习

摘要：代码引自 https://blog.csdn.net/jorocco/article/details/80142884 关于MapReduce的代码学习共有三个部分：传输的Value是自定义类型，需要自己实现序列化和反序列化，read()和write() 传输的Key是自定义类型，则需要自己实现阅读全文

posted @ 2020-07-11 16:46 Tanglement 阅读(221) 评论(0) 推荐(0)

本地IDEA跑阿里云服务器Word Count

摘要：Maven依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>3.1.3</version> </dependency> < 阅读全文

posted @ 2020-07-10 14:52 Tanglement 阅读(288) 评论(0) 推荐(0)

正则表达式(Java)

摘要：正则表达式简介正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言，但是在每种语言中有细微的差别。正则表达式实例判断手机号，我们用正则表达式\d{11} boolean isValidMobileNumber(String s) { retu 阅读全文

posted @ 2020-07-09 10:48 Tanglement 阅读(204) 评论(0) 推荐(0)

HDFS的类学习和API基本操作

摘要：类学习 Configuration 设置HDFS的相关参数。 conf = new Configuration (); conf.set("fs.defaultFS","hdfs://bigdata:9000"); conf.set("dfs.client.use.datanode.hostname 阅读全文

posted @ 2020-07-09 10:11 Tanglement 阅读(852) 评论(0) 推荐(0)

本地IDEA(Windows)访问ECS服务器HBase

摘要：添加Maven依赖一般来说只要有hbase-clientJAR包就好，毕竟我们是客户端远程访问HBase。 <dependencies>  <depen 阅读全文

posted @ 2020-07-07 17:51 Tanglement 阅读(834) 评论(0) 推荐(0)

本地IDEA访问ECS服务器HDFS

摘要：原本是配置了阿里云ECS服务器，但是用终端vim修改调试代码，总是会不方便。后面想到有两种解决办法：用本地IDEA调试代码，然后直接连接服务器的HDFS等端口，直接调试用本地IDEA调试代码，然后打包，发到服务器上进行运行下面是IDEA访问服务器hadoop的一个测试，以及遇到的问题和解决方阅读全文

posted @ 2020-07-05 10:57 Tanglement 阅读(615) 评论(1) 推荐(0)

阿里云ECS大数据环境搭建

摘要：背景原本自己都是使用笔记本的虚拟机来搭建大数据环境，调试代码，运行项目。但自己的笔记本是13寸的，屏幕很小，经常由于要打开多个终端，同时辅以网页，造成小小的屏幕里有很多窗口，体验极差。有想过通过外接大显示屏来解决，但显示屏固定连接了自己的游戏本。等于宿舍里操作游戏本，实验室操作台式机，平时背着轻阅读全文

posted @ 2020-07-03 15:07 Tanglement 阅读(656) 评论(0) 推荐(1)

启动spark-shell显示Failed to construct terminal; falling back to unsupported

摘要：错误信息 [ERROR] Failed to construct terminal; falling back to unsupported java.lang.NumberFormatException: For input string: "0x100" at java.lang.NumberF 阅读全文

posted @ 2020-07-01 21:59 Tanglement 阅读(2339) 评论(0) 推荐(1)

Scala的File操作

摘要：Scala的File操作就是Java的File操作。需要导入Java的File包 import java.io.File 删除目录文件及子目录 //删除文件及子目录 def del(dir : File): Unit = { if(dir.isDirectory) { val files = di 阅读全文

posted @ 2020-07-01 21:34 Tanglement 阅读(1199) 评论(0) 推荐(0)

07 2020 档案

公告