04 2018 档案
摘要:1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 5.查看hdfs中的文件(-ls) 6
阅读全文
摘要:2 将新闻数据结构转化为字典列表import pandas import requests import re from bs4 import BeautifulSoup from datetime import datetime def writeNewsDatail(content): f=open('gzccnews1.txt','a',encoding='utf-8') ...
阅读全文
摘要:1、用正则表达式判断邮箱输入是否正确 2、用正则表达式识别出全部电话号码 3、用正则表达式进行英文分词 4、用正则表达式获取新闻编号 5、生成点击次数的request.URL 6、获取点击次数 7、
阅读全文
摘要:1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将其中的发布时间由str转换成datetime类型。
阅读全文