hadoop - 随笔分类 - 对白的算法屋

摘要：

大家好，我是对白。今天给大家分享一位同学中稿ACL论文的经历。众所周知，深度学习的兴起一大要素是数据，训练一个深度学习模型的前提是具备足够的高质量数据。自然语言处理领域也是如此。在我们的合作项目中，需要自己标领域专用的训练数据，经过调研和亲身体验，发现已有的公开标注工具并不适合我们的项目需求，例如阅读全文

posted @ 2022-04-28 22:28 对白的算法屋阅读(218) 评论(0) 推荐(0)

在字节实习8个月后，成功转正！

摘要：

大家好，我是对白。今天给大家分享一位22届学弟**在字节实习8个月后成功转正的经历**，他向我们展示了在字节实习的日常工作，以及转正答辩该如何准备，最后告诫学弟学妹们今年秋招会很激烈，一定要尽早投递。**本文堪称大厂实习转正的教科书**，相信一定会对你有所帮助，以下为原文。 > 作者：F~~~J 阅读全文

posted @ 2022-04-27 23:03 对白的算法屋阅读(1202) 评论(0) 推荐(0)

被毁约+幸运避开裁员的秋招offer

摘要：

大家好，我是对白。今天给大家分享一位程序媛参加22届秋招，一直到今年4月才上岸华为的故事，她经历了被毁约、避开裁员公司、到最终接受华为offer这样一段曲折体验，并告诫大家大厂都在裁员，今年找工作真心难，以下为原文。 1\. 整个校招期间，你最终获得了哪些offer？本人是普通程序媛一枚，BAT 阅读全文

posted @ 2022-04-14 18:37 对白的算法屋阅读(223) 评论(0) 推荐(0)

搭建Hadoop的HA高可用架构（超详细步骤+已验证）

摘要：一、集群的规划 Zookeeper集群： Hadoop集群：二、准备工作 1、安装JDK：每台机器都需要安装我这里使用的是jdk-8u152-linux-x64.tar.gz安装包 2、配置环境变量: 3、配置IP地址与主机名的映射关系原因：方便SSH调用方便Ping通输入: 4、配置免密阅读全文

posted @ 2018-07-05 13:43 对白的算法屋阅读(1157) 评论(0) 推荐(4)

Hadoop集群nodes unhealthy解决方法

摘要：在搭建好Hadoop集群之后，所有服务均可正常启动，但是在运行MapReduce程序的时候，发现任务卡在7/09/07 22:28:14 INFO mapreduce.Job: Running job: job_1504781778966_0003，不再往下执行了，经过检查，发现所有的nodes节点阅读全文

posted @ 2018-04-09 09:10 对白的算法屋阅读(1015) 评论(0) 推荐(0)

-bash: start-all.sh: 未找到命令

摘要：解决方案：以root权限进入，找到hadoop安装的目录，进入sbin目录下输入命令#start-all.sh 出现错误：-bash: start-all.sh: 未找到命令百度了一下：原来需要输入：#sh start-all.sh或./start-all.sh 可能是环境变量失效了…… 阅读全文

posted @ 2018-04-07 20:31 对白的算法屋阅读(10651) 评论(0) 推荐(0)

大数据-平台-解决方案-基础架构一览

摘要：1、talkingdata （数据平台） 2、明略数据（解决方案） 3、百融金服（金融大数据） 4、国双科技（营销大数据） 5、国信优易（媒体大数据） 6、百分点（营销大数据） 7、华院集团（解决方案） 8、个推（数据平台） 9、奥维云网（数据平台） 10、数梦工场（解决方案） 11、极光推送（营销阅读全文

posted @ 2018-03-16 21:37 对白的算法屋阅读(993) 评论(0) 推荐(0)

SSH无密码验证

摘要：一、安装和启动SSH协议假设没有安装ssh和rsync，可以通过下面命令进行安装。假设没有安装ssh和rsync，可以通过下面命令进行安装。 sudo apt-get install ssh 安装SSH协议 sudo apt-get install rsync service sshd rest 阅读全文

posted @ 2018-03-10 22:39 对白的算法屋阅读(170) 评论(0) 推荐(0)

详解分布式应用程序协调服务Zookeeper

摘要：主从结构：HDFS、Yarn、HBase、storm、spark、zookeeper都存在单点故障问题 hadoop1.x没有解决方案 hadoop2.x利用zookeeper实现HA zookeeper是开源的分布式应用程序协调服务，是Google chubby的开源实现 zookeeper相当于阅读全文

posted @ 2018-03-09 20:57 对白的算法屋阅读(730) 评论(0) 推荐(0)

zookeeper的原理及使用

摘要：ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍Zo 阅读全文

posted @ 2018-03-09 12:28 对白的算法屋阅读(417) 评论(0) 推荐(0)

Hadoop、Yarn和vcpu资源的配置

摘要：转载自：https://www.cnblogs.com/S-tec-songjian/p/5740691.html Hadoop YARN同时支持内存和CPU两种资源的调度（默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置），本文将介绍YARN是如何对这些资源进行调度和隔离的。在YAR 阅读全文

posted @ 2018-03-09 11:44 对白的算法屋阅读(238) 评论(0) 推荐(0)

详细解读大数据分析引擎Pig&PigLatin语句

摘要：Pig 一、Pig的介绍： Pig由Yahoo开发，主要应用于数据分析，Twitter公司大量使用Pig处理海量数据，Pig之所以是数据分析引擎，是因为Pig相当于一个翻译器，将PigLatin语句翻译成MapReduce程序（只有在执行dump和store命令时才会翻译成MapReduce程序），阅读全文

posted @ 2018-03-04 18:00 对白的算法屋阅读(3461) 评论(0) 推荐(0)

详解大数据采集引擎之Sqoop&采集oracle数据库中的数据

摘要：一、Sqoop的简介： Sqoop是一个数据采集引擎/数据交换引擎，采集关系型数据库（RDBMS）中的数据，主要用于在RDBMS与HDFS/Hive/HBase之间进行数据传递，可以通过sqoop import命令将RDBMS中的数据导入到HDFS/Hive/HBase中，也可以通过sqoop ex 阅读全文

posted @ 2018-03-04 17:59 对白的算法屋阅读(2179) 评论(0) 推荐(0)

带你看懂大数据采集引擎之Flume&采集目录中的日志

摘要：一、Flume的介绍： Flume由Cloudera公司开发，是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于采集数据；同时，flume提供对数据进行简单处理，并写到各种数据接收方的能力，如果能用一句话概括Flume，那么Flume是阅读全文

posted @ 2018-03-04 17:55 对白的算法屋阅读(3461) 评论(0) 推荐(0)

带您详细解读分布式文件系统HDFS

摘要：一、HDFS的由来：本地系统：一个节点作为系统，以前数据是存放在本地文件系统上的，但本地文件系统存在两个问题：1、本地节点存储容量不够大；2、本地节点会坏，数据不够安全。这时，人们开始利用闲置的计算机组成了分布式系统，分布式系统是用计算机网络将多个节点联系起来组成一个逻辑上统一的系统。分布式系统阅读全文

posted @ 2018-03-04 17:37 对白的算法屋阅读(1654) 评论(0) 推荐(0)

剖析管理所有大数据组件的可视化利器：Hue

摘要：日常的大数据使用都是在服务器命令行中进行的，可视化功能仅仅依靠各个组件自带的web界面来实现，不同组件对应不同的端口号，如：HDFS(50070)，Yarn(8088),Hbase(16010)等等，而大数据的组件又有很多，为了解决某个问题，常常需要结合多个组件来使用，但是每个组件又有独立的web界阅读全文

posted @ 2018-03-04 17:32 对白的算法屋阅读(2643) 评论(0) 推荐(0)

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

摘要：Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别 Pig 一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig 阅读全文

posted @ 2018-01-22 23:03 对白的算法屋阅读(19009) 评论(0) 推荐(1)

Hadoop体系结构杂谈

摘要：hadoop体系结构杂谈今天跟一个朋友在讨论hadoop体系架构，从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现，MapReduce的模型计算，到一个云盘如何实现，再到Google分布式史上那最伟大的三篇文阅读全文

posted @ 2018-01-22 22:59 对白的算法屋阅读(451) 评论(0) 推荐(0)

对白的算法屋

清华计算机硕士，BAT算法工程师，欢迎关注微信公众号：对白的算法屋，带你少走弯路进大厂！

随笔分类 - hadoop

公告