随笔分类 - Python / Python网络爬虫
摘要:(1).Beautiful Soup库的安装 Beautiful Soup库也叫美味汤,是一个非常优秀的Python第三方库,能够对html、xml格式进行解析并提取其中的相关信息,官网地址是“https://www.crummy.com/software/BeautifulSoup/”。 安装Be
阅读全文
摘要:(1).实例一:京东商品页面爬取 首先随机选取一款商品,这里我选择了“【一加新品】一加 OnePlus 9R 5G 120Hz 柔性屏12GB+256GB 蓝屿 骁龙870 65W快充 专业游戏配置 超大广角拍照手机【行情 报价 价格 评测】-京东 (jd.com)”,这款商品的URL链接是“htt
阅读全文
摘要:(1).网络爬虫引发的问题 网络爬虫是一个很有趣的功能,它既能获得网络上的资源,但是它可以带来很多很严重的问题。 我们现在常用的网络爬虫,按尺寸划分可以分为三大类。第一类是指以爬取网页或者玩转网页为主的一类爬虫,这类爬虫规模很小,获取网络的数据量也很小,它对爬取网页的速度并不敏感,针对这一类的网络爬
阅读全文
摘要:Requests库是Python的第三方库,它是目前公认的爬取网页最好的第三方库。Requests库有两个特点,它很简单简单,也很简洁,甚至用一行代码从网页上获得相关的资源。Requests库的更多信息可以在https://requests.readthedocs.io/en/master/上获得。
阅读全文