摘要: 以下是练习使用URL链接: http://news.gzcc.cn/html/xiaoyuanxinwen/ 这里是使用了requests库和BeautifulSoup库来做爬虫练习,所以在使用前先安装好这两个库 练习要求如下: 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出 阅读全文
posted @ 2018-03-28 20:27 Lger 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 以下是关于小说的中文词频统计 这里有三个文件,分别为novel.txt、punctuation.txt、meaningless.txt。 这三个是小说文本、特殊符号和无意义词 Python代码统计词频如下: 相关代码已上传 "CSDN" 阅读全文
posted @ 2018-03-28 19:46 Lger 阅读(1389) 评论(0) 推荐(0) 编辑