摘要: 一、Hadoop提供的Shell命令完成相同任务: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的inp 阅读全文
posted @ 2018-04-26 17:59 201李桂源 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 一、主题 作为网易云音乐的忠实粉丝,在学习了python爬虫后,我想爬取网易云音乐的歌词、评论数和总的评论信息。分析流行音乐榜上的数据是否属实,从评论数和具体的评论信息可以获取很多相关性答案,因为好的歌曲,大部分听歌者都会给予比较真诚的评论,通过词频分析统计生成出现次数多的评论信息,再生成词云,直观 阅读全文
posted @ 2018-04-23 13:51 201李桂源 阅读(795) 评论(0) 推荐(0) 编辑
摘要: 1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用pand 阅读全文
posted @ 2018-04-17 21:35 201李桂源 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 学会使用正则表达式 1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 阅读全文
posted @ 2018-04-10 22:30 201李桂源 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将其中的发布时间由str转换成datetime类型。 4. 将完整的代码及运行结果截图发布在作业上。 阅读全文
posted @ 2018-04-03 22:23 201李桂源 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 329.html 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 4.取得含有特定CSS属性的元素 5.练习: 取出h1标签 阅读全文
posted @ 2018-03-29 19:12 201李桂源 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP20 将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。 运行结果: [('be', 8), ('on 阅读全文
posted @ 2018-03-27 17:18 201李桂源 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 1.组合数据类型练习: 分别定义字符串,列表,元组,字典,集合,并进行遍历。 总结列表,元组,字典,集合的联系与区别 列表是可变的对象,可进行动态的增加、删除、更新,即str.pop()和str.extend()等操作,用[]表示。 元组和列表在结构上没有什么区别,唯一的差异在于元组是只读的,不能修 阅读全文
posted @ 2018-03-22 15:03 201李桂源 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 画一面五星红旗,将代码与运行截图发布博客交作业 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 https://docs.python.org/3/library/turtle.html 产生python文档 阅读全文
posted @ 2018-03-20 16:14 201李桂源 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 按要求上机实践如下linux基本命令。 cd命令:切换目录 (1) 切换到目录 /usr/local cd usr cd local (2) 去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls –al mkdir命令 阅读全文
posted @ 2018-03-13 16:49 201李桂源 阅读(86) 评论(0) 推荐(0) 编辑