随笔分类 -  Python爬虫学习篇

记录学习爬虫的笔记
摘要:转载 https://www.jb51.net/article/63651.htm 模块是用类编写的,只有一个StringIO类,所以它的可用方法都在类中。 此类中的大部分函数都与对文件的操作方法类似。 import StringIO, cStringIO, sys s = StringIO.Str 阅读全文
posted @ 2021-04-22 23:25 流水自净 阅读(159) 评论(0) 推荐(0) 编辑
摘要:scrapy-redis分布式爬虫 开发步骤 一、安装模块 pip install scrapy-redis -i https://pypi.douban.com/simple tips:重点讲解scrapy-redis与scrapy不同的地方。以下步骤均是在原scrapy项目中进行修改 二、修改s 阅读全文
posted @ 2020-11-19 18:20 流水自净 阅读(220) 评论(0) 推荐(0) 编辑
摘要:使用xpath易错点 1、//的误用 通过xpath得到的elem对象,不能在开头使用//进行定位。在开头使用//是对原elem进行xpath 举个例子: from lxml import etree html = """<html> <body> <li><i>1<i></li> <li><i>2 阅读全文
posted @ 2020-11-17 16:06 流水自净 阅读(134) 评论(0) 推荐(0) 编辑
摘要:scrapy shell 交互窗口的使用 1、打开scrapy shell 在命令行cmd终端输入命令 # scrapy shell 网址 scrapy shell http://www.baidu.com # 注意网址不需要加引号,不是字符串。因为这里是终端。 2、利用shell调试代码 调试sc 阅读全文
posted @ 2020-11-15 20:53 流水自净 阅读(196) 评论(0) 推荐(0) 编辑
摘要:scrapy框架的运行与调试 1、运行scrapy框架的第一种方法是在终端输入命令: scrapy crawl 爬虫文件名 # 忽略运行详细信息 scrapy crawl 爬虫文件名 --nolog 2、第二种方法是在项目文件最高层目录下创建运行文件: # start.py from scrapy. 阅读全文
posted @ 2020-11-15 18:22 流水自净 阅读(627) 评论(0) 推荐(0) 编辑
摘要:scrapy爬虫框架 1、下载安装scrapy 在命令行cmd中安装 scrapy pip install scrapy -i https://pypi.douban.com/simple 输入 scrapy 确认安装好了,红色方框框住的是常用的命令 2、创建scrapy项目 scrapy star 阅读全文
posted @ 2020-11-15 17:17 流水自净 阅读(114) 评论(0) 推荐(0) 编辑
摘要:百度翻译使用了js函数对sign值进行加密,所以需要用到js逆向解析 js逆向解析即通过调用对方的js加密函数来获取正确的加密数据 js逆向解析需要安装js开发环境node.js和execjs模块 有两个文件,一个py文件存放主程序,和一个js文件存放从浏览器中找到的生成js加密数据的js代码 两个 阅读全文
posted @ 2020-11-13 21:25 流水自净 阅读(245) 评论(0) 推荐(0) 编辑
摘要:听说Pycharm社区版不能安装,只有专业版可以。我的是专业版,没试过社区版。以下步骤仅供参考 1、 依次点击 File > Setting > Plugins > Maketplace ,在搜索 notejs, 点击安装即可。等待安装完成重启 如果是破解版,重启后需要重新破解。 2、配置环境 依次 阅读全文
posted @ 2020-11-13 13:39 流水自净 阅读(8349) 评论(0) 推荐(0) 编辑
摘要:以windows10 x64为例: 一、安装nodejs 1、先去[NodeJs官网](https://nodejs.org/en/download/)下载安装包: https://nodejs.org/en/download/ 选择系统对应版本 windows x64,安装包以.msi结尾; zi 阅读全文
posted @ 2020-11-13 12:02 流水自净 阅读(427) 评论(0) 推荐(0) 编辑
摘要:有道翻译爬虫 import requests # 需安装 import time import random import hashlib # 需安装,md5加密 import jsonpath # 需安装,解析json数据 def youdao(sentence): lts = str(int(t 阅读全文
posted @ 2020-11-13 08:15 流水自净 阅读(135) 评论(0) 推荐(0) 编辑