04 2018 档案

摘要:今天为继续对网易云音乐的爬取。接第二天的工作,对爬取的音乐列表进行筛选,爬取音乐对应的评论。然后将这些信息储存在sql里。 已经成功将需要的数据爬取下来。开始研究将数据存储到数据库中,后续会对爬取数据的格式等进行一些优化。先做一些准备工作,看 看对应的资料。 https://www.cnblogs. 阅读全文
posted @ 2018-04-19 09:29 旮旯卜 阅读(232) 评论(0) 推荐(0)
摘要:0、参考文章 https://blog.csdn.net/qq_28304687/article/details/78678814 一、工作思路 原本设想对几个音乐网站进行交叉对比,来推荐几首热门的音乐。目前来看,从技术难度以及时间成本上来说都不是一个很好的方案。通过现有文章的学习,觉得还是主要以网 阅读全文
posted @ 2018-04-18 12:05 旮旯卜 阅读(160) 评论(0) 推荐(0)
摘要:在初步了解了关于爬虫的原理以及较为基本的技术后,尝试进行网页数据的爬取练习。首先使用requests和beautifulsoup来爬取网页上的部分信息。(以网易云音乐上的音乐排行榜信息爬取为例),记录遇到的相关问题以及解决方法。 一、获取文本内容 1、选取目标网址 import requests k 阅读全文
posted @ 2018-04-17 17:10 旮旯卜 阅读(178) 评论(0) 推荐(0)