04 2018 档案

摘要:1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 5.查看hdfs中的文件(-ls) 6 阅读全文
posted @ 2018-04-27 20:56 090伍明航 阅读(290) 评论(0) 推荐(0) 编辑
摘要:文本生成 阅读全文
posted @ 2018-04-24 18:01 090伍明航 阅读(194) 评论(0) 推荐(0) 编辑
摘要:2 将新闻数据结构转化为字典列表import pandas import requests import re from bs4 import BeautifulSoup from datetime import datetime def writeNewsDatail(content): f=open('gzccnews1.txt','a',encoding='utf-8') ... 阅读全文
posted @ 2018-04-17 19:44 090伍明航 阅读(129) 评论(0) 推荐(0) 编辑
摘要:1、用正则表达式判断邮箱输入是否正确 2、用正则表达式识别出全部电话号码 3、用正则表达式进行英文分词 4、用正则表达式获取新闻编号 5、生成点击次数的request.URL 6、获取点击次数 7、 阅读全文
posted @ 2018-04-11 21:11 090伍明航 阅读(153) 评论(0) 推荐(0) 编辑
摘要:1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将其中的发布时间由str转换成datetime类型。 阅读全文
posted @ 2018-04-03 20:31 090伍明航 阅读(258) 评论(0) 推荐(0) 编辑