随笔分类 - 爬虫相关问题
摘要:一: 问题描述: 爬虫微博 信息,出现302跳转, 比如访问的URL是:https://weibo.com/2113535642?refer_flag=1001030103_ (图片中标记为1) 然后跳转的URL是:https://weibo.com/sgccjsdl?refer_flag=1001
阅读全文
摘要:需求: str1 = " " 想把 这段字符串的标签全部都去掉,比如去掉 </li>, </ul>, </div>.。只保留不带<>的内容,但是要保留<br/>, 有什么好的办法吗?使用正则可以实现这个工作: 输出结果是:
阅读全文
摘要:本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机
阅读全文
摘要:爬取某个网站,可以通过修改下拉框来实现数据批量加载 上图我们可以看到 view 下面的下拉框 的值是25 ,50 ,100 ,200。我们把200的值修改为5200,然后提交页面 然后直接出来所有的数据,不在需要做翻页: 爽不爽啊,请求的时候注意把cookie复制到请求头里面,有些网站是通过cook
阅读全文
摘要:在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下, 最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据: 解决办法: 每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。
阅读全文
摘要:# coding:utf-8 import random, re import json, time import uuid from bs4 import BeautifulSoup import threading import requests import MySQLdb from lxml import etree from selenium import webdriver from...
阅读全文
摘要:在爬虫的过程过,我们有时候往往是开多线程或者多进程或者是协程,有时间下载速度能达到2兆左右的数据,如果和这些数据插入到数据库中,使我们必须解决的问题: 目前去搞个数据库集群或者其他的对硬件的方案,可能是大公司无所谓,小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题,主要简单的介绍两
阅读全文
摘要:来源于:http://www.sohu.com/a/168371748_714863 很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。 分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳
阅读全文
摘要:现在有3000条数据,需要插入到数据库中去,使用的是对链接进行MD5加密,
阅读全文
摘要:在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢? 例如:下面的问题 针对这三种情况,可以试用正则 sub去提取信息 运行结果是:
阅读全文
摘要:在下载图片的过程中,经常会发现图片损坏,下面提供了两种解决方法: 方法一: 方法二: 这两张方法都下载了一千多张图片作为测试,没有发现下载的图片加载到一半,或者其他错误。 记录下来,仅供以后参考使用。
阅读全文
摘要:爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是 亞洲私人珍藏 ;賣,令仝好分享他Ġ
阅读全文
摘要:在写爬虫的时候,难免会遇到报错,比如 4XX ,5XX,有些可能是网络的原因,或者一些其他的原因,这个时候我们希望程序去做第二次下载, 有一种很low的解决方案,比如是用 try except 有没有看起来更舒服的写法呢? 我们可以用递归实现这个过程 代码如下 输出结果:
阅读全文
摘要:对MySQL选择的封装
阅读全文
摘要:一。 为什么要用解析框架 bs4 我觉得爬虫最难得问题就是编码格式,因为你不知道要爬取目标网站的编码格式,有可能是Unicode,utf-8, ASCII , gbk格式,但是使用Beautiful Soup解析后,文档都被转换成了Unicode,通过Beautiful Soup输出文档时,不管输入
阅读全文
摘要:# encoding=utf-8 agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Browser/1.2.789...
阅读全文