上一页 1 2 3 4 5 6 7 8 9 ··· 37 下一页
摘要: hadoop生态系统如下图所示: HDFS: HDFS(Hadoop Distributed File System)是分布式文件系统,是针对谷歌开发的分布式文件系统GFS(Google File System)的开源实现,是Hadoop两大核心组成部分之一。 HDFS有NameNode和DataN 阅读全文
posted @ 2019-01-04 23:12 Kayden_Cheung 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 下图显示了HDFS文件系统中路径为“localhost:50070/explorer.html#/user/hadoop”的目录中所有的文件信息: 对于该目录下的所有文件,我们将执行以下操作: 首先,从该目录中过滤出所有后缀名不为".abc"的文件。 然后,对过滤之后的文件进行读取。 最后,将这些文 阅读全文
posted @ 2019-01-04 19:48 Kayden_Cheung 阅读(1706) 评论(0) 推荐(0) 编辑
摘要: 文件简单写操作: 文件简单读操作: 阅读全文
posted @ 2019-01-04 14:19 Kayden_Cheung 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 在解决这个问题的过程中,我又是积累了不少经验。。。 首先让我搞了很久的问题是,书上说进程全部启动的命令是/bin/start-all.sh,但是当我执行的时候显示command not found。后来才知道这个命令到了sbin文件中,应该是版本的原因。我装的是hadoop2.9。 所以正确的启动命 阅读全文
posted @ 2019-01-03 22:30 Kayden_Cheung 阅读(2667) 评论(0) 推荐(0) 编辑
摘要: hadoop的伪分布式安装流程如下所示: 其中core-site.xml和hdfs-site.xml是两个很重要的配置文件。 core-site.xml hadoop.tmp.dir用来存放hadoop运行过程中临时文件的目录,目录指定为/usr/local/hadoop/tmp,如果不设置这个目录 阅读全文
posted @ 2019-01-03 20:18 Kayden_Cheung 阅读(6087) 评论(1) 推荐(0) 编辑
摘要: hadoop是用Java语言实现的开源软件框架,可以支持多种语言,我学习的时候用得自然就是Java了。 在开始编程之前需要做一些配置工作: Hadoop开发:Hadoop为HDFS和Mapreduce提供了基础的支持,叫hadoop common。Hadoop有一个专门的common jar包,需要 阅读全文
posted @ 2019-01-03 16:10 Kayden_Cheung 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 在实习的时候需要搭建ftp服务器,这是我在虚拟机上搭建的,基本功能已实现。 模块一 yum安装 1.使用yum命令安装所需的vsftpd包 yum install vsftpd 输入y,进行安装: 模块二 网络配置 由于是要做ftp服务器,需要与外网相连通,在这里我采用的是NAT连接方式。 1.在虚 阅读全文
posted @ 2018-07-12 12:47 Kayden_Cheung 阅读(495) 评论(0) 推荐(0) 编辑
摘要: http://acm.hdu.edu.cn/showproblem.php?pid=2426 题意:每n个学生和m个房间,现在要为每个学生安排一个房间居住,每个学生对于一些房间有一些满意度,如果满意度为负就说明该学生不喜欢住在这房间。现在问如何安排可以使所有学生的满意度总和最大。(不能将学生安排到他 阅读全文
posted @ 2018-07-10 19:23 Kayden_Cheung 阅读(213) 评论(0) 推荐(0) 编辑
摘要: Samba的作用是在Linux和windows之间通过网络进行资源共享。下面是简单的一个文件共享例子: 1、安装samba、samba-client服务 yum install samba samba-client.x86_64 2、设置samba服务自启动,启动samba服务 服务自启动: sys 阅读全文
posted @ 2018-07-10 16:55 Kayden_Cheung 阅读(3424) 评论(0) 推荐(0) 编辑
摘要: http://acm.hdu.edu.cn/showproblem.php?pid=5236 题意:现在有人要在文本编辑器中输入n个字符,然而这个编辑器有点问题。 在i+0.1s(i>=0)的时刻可以输入一个字符。 在i+0.9s(i>0)的时刻系统可能会崩溃,需要重新开始或者从上次保存点开始。 在 阅读全文
posted @ 2018-07-03 15:40 Kayden_Cheung 阅读(212) 评论(0) 推荐(0) 编辑
摘要: http://acm.hdu.edu.cn/showproblem.php?pid=5242 题意: 给出一棵树,每个节点都有一个权值,每次可以获得从根结点(1)到叶子节点上的所有权值和,每个节点只能获得一次。求k次操作后可以获得的最大权值和。 思路: 反向建图,首先求出所有节点到根节点的权值和,然 阅读全文
posted @ 2018-07-03 14:50 Kayden_Cheung 阅读(134) 评论(0) 推荐(0) 编辑
摘要: http://acm.hdu.edu.cn/showproblem.php?pid=5245 题意: 给出一个n*m的矩阵格子,现在有k次操作,每次操作随机选择两个格子作为矩形的对角,然后将这范围内的格子填色,现在要求经过k次操作后填色格子的期望值。 思路: 给个格子都是独立的,所以只需要计算出每个 阅读全文
posted @ 2018-07-02 22:38 Kayden_Cheung 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 豆瓣上有图书的排行榜,所以这次写了一个豆瓣的爬虫。 首先是分析排行榜的url 根据这个可以很容易的知道不同图书的排行榜就是在网站后面加上/tag/【类别】,所以我们首先要获得图书的类别信息。 这里可以将读书首页的热门标签给爬下来。 爬取标签内容并不难,代码如下: 接下来是进入排行榜页面进行信息爬取, 阅读全文
posted @ 2018-06-15 20:28 Kayden_Cheung 阅读(1246) 评论(1) 推荐(0) 编辑
摘要: 1. 总述 慕课中这段代码的功能是首先从东方财富网上获得所有股票的代码,再利用我们所获得的股票代码输入url中进入百度股票页面爬取该只股票的详细信息。 2. 具体分析 2.1 获取源码 这段代码的功能就是使用requests库直接获得网页的所有源代码。 2.2 获取股票代码 在源码中可以看到每支股票 阅读全文
posted @ 2018-05-28 13:34 Kayden_Cheung 阅读(2094) 评论(0) 推荐(0) 编辑
摘要: 1 import re 2 import requests 3 4 def getHTMLText(url): 5 try: 6 r = requests.get(url, timeout = 30) 7 r.raise_for_status() 8 r.encoding = r.apparent_encoding 9 ... 阅读全文
posted @ 2018-05-25 18:06 Kayden_Cheung 阅读(1309) 评论(0) 推荐(0) 编辑
摘要: 这是统计学习方法中的一道题目,下面是维特比算法的代码实现: 阅读全文
posted @ 2018-05-25 10:21 Kayden_Cheung 阅读(818) 评论(0) 推荐(0) 编辑
摘要: 正则表达式库re是非常重要的一个库。 首先正则表达式有两种表示类型,一种是raw string类型(原生字符串类型),也就是我们经常看到的r' '的写法,另一种是不带r的写法,称为string类型。raw string的作用是把转义字符当做普通的字符,所以一般来说,我们都是使用raw string类 阅读全文
posted @ 2018-05-25 00:08 Kayden_Cheung 阅读(2418) 评论(1) 推荐(0) 编辑
摘要: BeautifulSoup是处理爬虫的一个强大工具,在HTML页面中,是由各种标签构成的,BeautifulSoup的功能就是从标签下手的,它是解析、遍历、维护“标签树”的功能库。 BeautifulSoup的基本元素如下: 1. 基本格式如下: 解析效果如下: 2. 具体使用方法如下: 3. 标签 阅读全文
posted @ 2018-05-24 18:35 Kayden_Cheung 阅读(269) 评论(0) 推荐(0) 编辑
摘要: http://acm.hdu.edu.cn/showproblem.php?pid=5119 题意:给出n个数和一个上限m,求从这n个数里取任意个数做异或运算,最后的结果不小于m有多少种取法。 思路:dp[i][j]表示在前i个数中取数做异或运算最后结果为j的方法数,那么dp[i][j] = dp[ 阅读全文
posted @ 2018-05-15 14:22 Kayden_Cheung 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 爬取百度内容: 在URL中填上http://www.baidu.com/s?wd=keyword,keyword就是我们要百度搜索的内容,在requests中有params参数,可以把参数追加到URL中。 爬取图片 阅读全文
posted @ 2018-04-27 21:33 Kayden_Cheung 阅读(260) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 37 下一页
//目录