04 2018 档案

摘要:爬了一下腾讯漫画的网页,因为腾讯漫画中的国漫是非常多的,也想看看国漫的近况: url:http://ac.qq.com/Comic/all/search/time/page/1 实现过程: 2、从漫画中的列表页中提取所有漫画 3、从尾页列表页中获取总的漫画列表页数 4、获取详情并保存在execl文档 阅读全文
posted @ 2018-04-30 21:49 029黄甲栋 阅读(611) 评论(0) 推荐(0)
摘要:在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 查看hdfs中的文件(-ls) 显示hdfs中该的文件 阅读全文
posted @ 2018-04-27 12:26 029黄甲栋 阅读(3926) 评论(0) 推荐(0)
摘要:1. 将新闻的正文内容保存到文本文件。 结果如下: 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) def getClic 阅读全文
posted @ 2018-04-17 19:49 029黄甲栋 阅读(272) 评论(0) 推荐(0)