摘要: 高效文本处理 - 1 原始文本 张伟 13497113770 \n 王伟 18848534265 \n 王芳 14055574177 \n 李伟 18778349318 \n 王秀英 17868446857 \n 李秀英 13837762154 \n 李娜 14251562703 \n 张秀英 17 阅读全文
posted @ 2020-07-14 16:53 木子欢儿 阅读(607) 评论(0) 推荐(0) 编辑
摘要: 我们一直使用 print 方法打印爬虫获取的数据,接下来你将把这些数据保存到特定格式文件中。 CSV 格式 Python 提供了标准库 csv 来读写 csv 数据。 新建一个 Python 文件,输入以下代码,并运行。 import csv file = open('movies.csv', 'w 阅读全文
posted @ 2020-07-14 16:09 木子欢儿 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 网页结构的相似性 爬虫的目的,是从网站中 自动化 的 批量 提取数据。 首先尝试完成以下操作: 从以下链接中提取电影的标题和标题后的年份: https://movie.douban.com/subject/1292052/ https://movie.douban.com/subject/19626 阅读全文
posted @ 2020-07-14 15:54 木子欢儿 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 使用 pip 安装 requests_html 库 pip install requests_html 根据你的网络情况,通常需要几分钟时间。 在你的电脑任意位置,新建一个 crawler.py 文件。输入并执行以下 4 行代码: from requests_html import HTMLSess 阅读全文
posted @ 2020-07-14 15:38 木子欢儿 阅读(1414) 评论(0) 推荐(0) 编辑