随笔档案「2018年4月」 - 旮旯卜

爬虫day03

摘要：今天为继续对网易云音乐的爬取。接第二天的工作，对爬取的音乐列表进行筛选，爬取音乐对应的评论。然后将这些信息储存在sql里。已经成功将需要的数据爬取下来。开始研究将数据存储到数据库中，后续会对爬取数据的格式等进行一些优化。先做一些准备工作，看看对应的资料。 https://www.cnblogs. 阅读全文

posted @ 2018-04-19 09:29 旮旯卜阅读(241) 评论(0) 推荐(0)

爬虫day02

摘要：0、参考文章 https://blog.csdn.net/qq_28304687/article/details/78678814 一、工作思路原本设想对几个音乐网站进行交叉对比，来推荐几首热门的音乐。目前来看，从技术难度以及时间成本上来说都不是一个很好的方案。通过现有文章的学习，觉得还是主要以网阅读全文

posted @ 2018-04-18 12:05 旮旯卜阅读(181) 评论(0) 推荐(0)

爬虫学习day1

摘要：在初步了解了关于爬虫的原理以及较为基本的技术后，尝试进行网页数据的爬取练习。首先使用requests和beautifulsoup来爬取网页上的部分信息。（以网易云音乐上的音乐排行榜信息爬取为例），记录遇到的相关问题以及解决方法。一、获取文本内容 1、选取目标网址 import requests k 阅读全文

posted @ 2018-04-17 17:10 旮旯卜阅读(194) 评论(0) 推荐(0)

旮旯卜

04 2018 档案

公告