随笔分类 -  爬虫

爬取网易云音乐评论
摘要:上图中,搜索到评论后,在新窗口打开,却是空白页面,所以进行以下几步。 从服务器获取内容有多种方法,最常用的就是get和post, get方法就是直接从服务器获取内容,其参数都在网址的字符串里面; post的话,需要向服务器提供特定/指定的data服务器才会给你数据。 所以在此次爬虫中,用的既然是PO 阅读全文

posted @ 2021-07-29 17:09 lmqljt 阅读(593) 评论(0) 推荐(0) 编辑

2017年中国主要城市房价工资比排行榜
摘要:2017房价 import requests import bs4 import re import openpyxl def open_url(url): headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi 阅读全文

posted @ 2021-07-28 20:27 lmqljt 阅读(94) 评论(0) 推荐(0) 编辑

爬取豆瓣TOP250电影
摘要:自己跟着视频学习的第一个爬虫小程序,里面有许多不太清楚的地方,不如怎么找到具体的电影名字的,那么多级关系,怎么以下就找到的是那个div呢? 诸如此类的,有许多,不过先做起来再说吧,后续再取去弄懂。 import requests import bs4 import re def open_url(u 阅读全文

posted @ 2021-07-28 15:57 lmqljt 阅读(96) 评论(0) 推荐(0) 编辑

浏览器代理user-agent
摘要:两种方法: 法1:浏览器地址栏输入:about://version,然后复制用户代理; 如果法1不行,法2肯定可以。 法2:打开任意浏览器,输入任意网址,下面以火狐和百度网址为例来进行说明; 打开火狐浏览器,输入www.baidu.com 如果输入网址并点击了F12后,刷新快捷键除了F5外,还可以用 阅读全文

posted @ 2021-07-28 15:11 lmqljt 阅读(542) 评论(0) 推荐(0) 编辑

浏览器代理爬虫问题
摘要:以上参考:https://blog.csdn.net/weixin_43902320/article/details/104342771 以下是自己的第一个爬虫小程序,虽然简单,但也值得记录下来: import requests import bs4 headers={'User-Agent':'M 阅读全文

posted @ 2021-07-27 21:52 lmqljt 阅读(61) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示