摘要: 在hadoop上对英文小说《教父II·西西里人》进行词频统计; 开启所有的服务,并将txt文件放在wc文件夹里: 将txt文件上传至hdfs,启动hive: 将导入文件导入到新建的表novel里: 进行词频统计并放入表note_count表中: 查询前20: 用Hive对爬虫大作业产生的csv文件进 阅读全文
posted @ 2018-05-25 12:04 Polvem 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 通过hadoop上的词频统计 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 结果放在表word_count里 统计结果 阅读全文
posted @ 2018-05-16 22:42 Polvem 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 本文爬取了掘金上关于前端前n页的标题。将文章的标题进行分析,可以看出人们对前端关注的点或者近来的热点。 获取动态网页的具体内容 爬取动态网页时标题并不能在html里直接找到,需要通过开发者工具里的Network去寻找。寻找到的是ajax发出的json数据。 获取json里面的具体某个数据 我们获取到 阅读全文
posted @ 2018-04-30 13:06 Polvem 阅读(983) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas import openpyxl import sqlite3 url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get... 阅读全文
posted @ 2018-04-17 22:39 Polvem 阅读(121) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re # 1. 用正则表达式判定邮箱是否输入正确。 r='^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$' e='286980036@qq.com' if re.match(r,e): p... 阅读全文
posted @ 2018-04-10 22:31 Polvem 阅读(122) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime res=requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/') res.encoding='utf-8' soup=BeautifulSoup(res.text,'html.parser... 阅读全文
posted @ 2018-04-03 23:01 Polvem 阅读(115) 评论(0) 推荐(0) 编辑
摘要: import requests url='http://localhost:63342/new/036.html?_ijt=55599hg223a9s359i3e3f9kdku' res=requests.get(url) res.encoding='utf-8' from bs4 import BeautifulSoup soup=BeautifulSoup(res.text,'html.... 阅读全文
posted @ 2018-03-29 16:42 Polvem 阅读(152) 评论(0) 推荐(0) 编辑
摘要: PS.这是经过分析后的结果 阅读全文
posted @ 2018-03-27 17:07 Polvem 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 列表与元组的区别与联系:Python的元组与列表类似,不同之处在于元组的元素不能修改。元组使用小括号,列表使用方括号。 集合与字典的区别与联系:集合可以进行运算,而字典有一对一的对应关系。集合中的元素是唯一的。字典和系列都是没有序列的不可通过序列查找 阅读全文
posted @ 2018-03-22 17:04 Polvem 阅读(154) 评论(0) 推荐(0) 编辑
摘要: import turtle def mygoto(x,y): turtle.up() turtle.goto(x,y) turtle.down() def drawStar(x): turtle.fillcolor("yellow") turtle.begin_fill() for i in range(5): turtle.f... 阅读全文
posted @ 2018-03-20 17:02 Polvem 阅读(109) 评论(0) 推荐(0) 编辑