随笔分类 -  Python爬虫

摘要:参考链接:https://www.makcyun.top/web_scraping_withpython3.html 该网页其实有16张图片,但是因为页面数据中某处多个空白,导致参考链接中的方式只有15张图片,并且亲测有些方式能用,有些方式不能用,特此记录一下 正常显示: 不正常显示: 注:下载保存 阅读全文
posted @ 2019-01-11 17:14 哈喽哈喽111111 阅读(536) 评论(0) 推荐(0) 编辑
摘要:本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法 作用:快速获取在html中页面中table格式的数据 (2)to_sql的用法 将获得的DataFrame数据写入数据表中 (3) 阅读全文
posted @ 2019-01-10 15:24 哈喽哈喽111111 阅读(46656) 评论(0) 推荐(2) 编辑
摘要:网址:http://www.halehuo.com/jingqu.html 经过查看可以发现,该景区页面没有分页,不停的往下拉,页面会进行刷新显示后面的景区信息 通过使用浏览器调试器,发现该网站使用的是post请求,使用ajax传输数据 请求参数: 响应数据: 经过以上分析,大致思路如下: (1)向 阅读全文
posted @ 2019-01-10 13:55 哈喽哈喽111111 阅读(1407) 评论(0) 推荐(0) 编辑
摘要:参考链接: https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/83663400 https://www.makcyun.top/web_scraping_withpython1.html 因猫眼网站有些更新,参考链接中的部分代码执行报错,特 阅读全文
posted @ 2019-01-09 18:33 哈喽哈喽111111 阅读(1312) 评论(0) 推荐(0) 编辑
摘要:猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜,稍加修改也可适用于最受期待榜和北美票房榜 解决思路如下: 1.获取网页数据后,查找字体信息,获取到 阅读全文
posted @ 2019-01-08 16:35 哈喽哈喽111111 阅读(1793) 评论(0) 推荐(1) 编辑
摘要:前提:.需要安装MongDB 注:因今日投票网页发生变更,如下代码不保证能正常使用 阅读全文
posted @ 2019-01-04 17:36 哈喽哈喽111111 阅读(336) 评论(0) 推荐(0) 编辑
摘要:需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法(5)根据图片url链接下载图片并保存(6)MongoDB的初步使用 #!/usr/bin/env python# -*- coding: utf-8 -*-import re import json import requests from reque... 阅读全文
posted @ 2018-12-27 15:44 哈喽哈喽111111 阅读(545) 评论(0) 推荐(0) 编辑
摘要:说明:代码没怎么完善,能用就行 1、需要安装requests模块 pip install requests 2、数量那个需要看一下网站上的最大图片数量是多少,酌情修改一下 3、下载完毕后需要更换url地址 4、手动创建图片保存的目录 阅读全文
posted @ 2018-08-09 17:32 哈喽哈喽111111 编辑
摘要:1 #!/usr/bin/env python 2 #-*- coding: utf-8 -*- 3 4 import json 5 import urllib 6 import requests 7 8 9 # 指定url路径,经过查看url获取的信息:0/0是全部的json信息 10 pre_url = "http://gank.io/api/data/福利/0/0"... 阅读全文
posted @ 2018-06-21 16:05 哈喽哈喽111111 阅读(1560) 评论(0) 推荐(0) 编辑
摘要:代码还有待优化,不过目的已经达到了 1、先执行如下代码: 2、在执行如下代码: 执行效果: 有时间的话会把代码进行优化处理的。。。 阅读全文
posted @ 2018-01-16 23:18 哈喽哈喽111111 阅读(1127) 评论(0) 推荐(0) 编辑
摘要:此代码是根据网络上其他人的代码优化而成的, 环境准备: pip install lxml pip install bs4 pip install urllib 执行步骤: 重复执行代码的话已保存的不会再次下载保存 执行结果: 遇到的错误如何解决: 1、错误提示:requests.exceptions 阅读全文
posted @ 2018-01-16 23:14 哈喽哈喽111111 阅读(1743) 评论(1) 推荐(1) 编辑