会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Polvem
博客园
首页
新随笔
联系
订阅
管理
2018年5月25日
Hadoop综合大作业
摘要: 在hadoop上对英文小说《教父II·西西里人》进行词频统计; 开启所有的服务,并将txt文件放在wc文件夹里: 将txt文件上传至hdfs,启动hive: 将导入文件导入到新建的表novel里: 进行词频统计并放入表note_count表中: 查询前20: 用Hive对爬虫大作业产生的csv文件进
阅读全文
posted @ 2018-05-25 12:04 Polvem
阅读(126)
评论(0)
推荐(0)
2018年5月16日
hive基本操作与应用
摘要: 通过hadoop上的词频统计 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 结果放在表word_count里 统计结果
阅读全文
posted @ 2018-05-16 22:42 Polvem
阅读(147)
评论(0)
推荐(0)
2018年4月30日
关于爬取json内容生成词云(疯狂踩坑)
摘要: 本文爬取了掘金上关于前端前n页的标题。将文章的标题进行分析,可以看出人们对前端关注的点或者近来的热点。 获取动态网页的具体内容 爬取动态网页时标题并不能在html里直接找到,需要通过开发者工具里的Network去寻找。寻找到的是ajax发出的json数据。 获取json里面的具体某个数据 我们获取到
阅读全文
posted @ 2018-04-30 13:06 Polvem
阅读(999)
评论(0)
推荐(0)
2018年4月17日
数据结构化与保存
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas import openpyxl import sqlite3 url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get...
阅读全文
posted @ 2018-04-17 22:39 Polvem
阅读(121)
评论(0)
推荐(0)
2018年4月10日
正则表达式
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re # 1. 用正则表达式判定邮箱是否输入正确。 r='^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$' e='286980036@qq.com' if re.match(r,e): p...
阅读全文
posted @ 2018-04-10 22:31 Polvem
阅读(122)
评论(0)
推荐(0)
2018年4月3日
爬取校园新闻首页的新闻
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime res=requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/') res.encoding='utf-8' soup=BeautifulSoup(res.text,'html.parser...
阅读全文
posted @ 2018-04-03 23:01 Polvem
阅读(121)
评论(0)
推荐(0)
2018年3月29日
网络爬虫基础练习
摘要: import requests url='http://localhost:63342/new/036.html?_ijt=55599hg223a9s359i3e3f9kdku' res=requests.get(url) res.encoding='utf-8' from bs4 import BeautifulSoup soup=BeautifulSoup(res.text,'html....
阅读全文
posted @ 2018-03-29 16:42 Polvem
阅读(153)
评论(0)
推荐(0)
2018年3月27日
词频统计
摘要: PS.这是经过分析后的结果
阅读全文
posted @ 2018-03-27 17:07 Polvem
阅读(122)
评论(0)
推荐(0)
2018年3月22日
Python数据类型
摘要: 列表与元组的区别与联系:Python的元组与列表类似,不同之处在于元组的元素不能修改。元组使用小括号,列表使用方括号。 集合与字典的区别与联系:集合可以进行运算,而字典有一对一的对应关系。集合中的元素是唯一的。字典和系列都是没有序列的不可通过序列查找
阅读全文
posted @ 2018-03-22 17:04 Polvem
阅读(155)
评论(0)
推荐(0)
2018年3月20日
国旗
摘要: import turtle def mygoto(x,y): turtle.up() turtle.goto(x,y) turtle.down() def drawStar(x): turtle.fillcolor("yellow") turtle.begin_fill() for i in range(5): turtle.f...
阅读全文
posted @ 2018-03-20 17:02 Polvem
阅读(110)
评论(0)
推荐(0)
下一页
公告