04 2018 档案

摘要:打开酷我新歌排行榜,网址是http://www.kuwo.cn/bang/index 代码: 用requests库和BeautifulSoup库,爬取酷我新歌榜当前页面的每首的曲目、作者、歌词、排行、链接等,将获取歌曲详情的代码定义成一个函数 生成词云: 阅读全文
posted @ 2018-04-27 23:57 黄俊熙 阅读(337) 评论(0) 推荐(0) 编辑
摘要:1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。、 5.查看hdfs中的文件(-ls) 阅读全文
posted @ 2018-04-26 22:58 黄俊熙 阅读(154) 评论(0) 推荐(0) 编辑
摘要:1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news一个列表页所有单条新闻汇总-->列表newsls.append(news)所有列表页的所有新闻汇总列表newstotal.extend(newsls)#将获取新闻详情的代码定义成一个函数 d 阅读全文
posted @ 2018-04-19 08:20 黄俊熙 阅读(115) 评论(0) 推荐(0) 编辑
摘要:1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 运行结果图: 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 运行结果图: 3. 将其中的发布时间由str转换成datetime类型。 运行结果图: 4. 将完整的代码及运行结果截 阅读全文
posted @ 2018-04-03 23:22 黄俊熙 阅读(115) 评论(0) 推荐(0) 编辑