爬虫大作业
1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)
import requests
from bs4 import BeautifulSoup as bs
import re
path = 'C:\\Users\\Jie\\Desktop\\'
url = "https://www.imooc.com/learn/982"
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
html = requests.get(url,headers=header).content.decode('utf-8')
soup = bs(html, 'html.parser')
con = soup.select('.content')[0].get_text()
info = re.sub('\s+', '', con)
f = open(path + 'yanjie.txt' ,'a+', encoding='utf-8')
f.write(info)
f.close()
import jieba
import PIL
from wordcloud import WordCloud
import matplotlib.pyplot as p
import os
path = 'C:\\Users\\Jie\\Desktop\\'
info = open(path+'yanjie.txt','r',encoding='utf-8').read()
text = ''
text += ' '.join(jieba.lcut(info))
wc = WordCloud(font_path='C:\Windows\Fonts\STZHONGS.TTF',background_color='White',max_words=50)
wc.generate_from_text(text)
p.imshow(wc)
p.axis("off")
p.show()
wc.to_file(path+'xyj.jpg')
2.用python 编写爬虫程序,从网络上爬取相关主题的数据。
3.对爬了的数据进行文本分析,生成词云。
4.对文本分析结果进行解释说明。
5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。
6.最后提交爬取的全部数据、爬虫及数据分析源代码。
结果:
简介:Golang作为21世纪的C语言,凭借其简单和高效,如今已经被越来越多的人当成主力编程语言,并发是Golang最大的优势,本门课程将带你一起去探索Golang并发的奥秘,除此之外,你还能学到Golang的面向对象,最终实现一个可在生产环境使用的高性能的日志监控系统。相信完成这门课程之后,你一定也会爱上Golang这门语言!1章课程介绍简单演示了日志监控程序的功能,然后介绍了一些关于并发编程的基础知识,以及在Golang中并发编程的实现,为后续课程做好知识储备。1-1课程介绍(09:05)开始学习1-2常见并发模型讲解(05:18)开始学习1-3并发拓展:并发与并行(07:17)开始学习1-4golang中的面向对象(03:29)开始学习2章日志监控程序的实现本章节讲解系统的架构设计和编码实现,将复杂的业务逻辑拆分成多个独立执行的模块,使用并发的思想来提升程序的执行效率,同时也涉及到各种新包的使用。课程中还讲解了grafana和influxdb的配置使用。2-1日志分析系统实战(11:12)开始学习2-2代码优化(10:45)开始学习2-3读取模块实现(09:35)开始学习2-4解析模块的实现(19:57)开始学习2-5写入模块流程讲解(05:52)开始学习2-6写入模块具体实现(11:37)开始学习2-7监控图的绘制(05:28)开始学习2-8运行状况监控(14:09)开始学习3章课程总结总结整个课程所涉及到的编程知识点,主要包括goroutine和channel的使用。串讲了整个日志监控程序实现的关键点,以及并发程序的设计思路。3-1细节优化及课程总结(04:51)开始学习