摘要: 动手学PyTorch版RNN报错 RuntimeError: expected scalar type Float but found Long 把源代码中的RNNModel修改: 原代码 class RNNModel(nn.Module): def __init__(self, rnn_layer 阅读全文
posted @ 2020-12-16 10:45 淡然。 阅读(185) 评论(0) 推荐(0) 编辑
摘要: CUDA安装 首先查看PyTorch官网适配的CUDA版本,选择适配的版本进行下载安装 cuDNN下载安装 登录NVIDIA需要Windows关闭防火墙,选择与CUDA同版本的cuDNN下载压缩包,解压后文件夹覆盖到CUDA文件夹 PyTorch安装 通过pip进行安装 pip --default- 阅读全文
posted @ 2020-10-28 09:00 淡然。 阅读(78) 评论(0) 推荐(0) 编辑
摘要: User Agent 介绍 User Agent 的本质 一个特殊字符串头 User Agent 的作用 使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等 查看浏览器 UA 的方法 查看 Scrapy 爬虫 UA 的方法 scrapy 阅读全文
posted @ 2019-10-27 10:39 淡然。 阅读(598) 评论(0) 推荐(0) 编辑
摘要: 网站反爬虫的原因 常见反爬虫手段 设置账号的登录限制,只有登录才能展现内容 设置账号登录的时长,时间一到则自动退出 爬虫访问次数过多,弹出验证码要求输入 每天限制一个登录账户后端 api 接口的调用次数 对后台 api 返回信息进行加密处理 反反爬的策略 将爬虫伪装成自然人的浏览行为 访问频率不会非 阅读全文
posted @ 2019-10-25 15:24 淡然。 阅读(2704) 评论(0) 推荐(0) 编辑
摘要: 配置 settings.py 启用自定义 IP 代理中间件 DOWNLOADER_MIDDLEWARES 设置自定义 IP 代理中间件优先级高于系统 IP 代理中间件 收集可用的 IP 代理,构建 IP 代理池 在 settings.py 中定义IP代理数组 这些IP可以从这个几个网站获取:快代理、 阅读全文
posted @ 2019-10-25 14:56 淡然。 阅读(2747) 评论(0) 推荐(0) 编辑
摘要: 安装 pymongo 模块 conda/pip install pymongo 使用步骤 创建数据库连接 pymongo.MongoClient(host='localhost', port=27017) 本地ip:localhost 默认端口:27017 获得数据库对象 数据库连接.数据库名称 获 阅读全文
posted @ 2019-10-24 15:32 淡然。 阅读(637) 评论(0) 推荐(0) 编辑
摘要: MongoDB数据库的特点 面对文档存储的分布式数据库 具有很强的拓展性 支持丰富的查询表达式,很接近于关系型数据库 以类 json 的结构保存数据,可轻易查询文档中内嵌的对象及数组 操作MongoDB数据库 use [db名称] db.dropDatabase() db.[collection名称 阅读全文
posted @ 2019-10-24 13:39 淡然。 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 安装PyMySql模板 pip install pymysql 配置MySQL连接参数 pymysql.Connect() host、post、user、passwd、db、charset 获取cursor()对象 cursor() 执行MySql语句 cursor().execute() curs 阅读全文
posted @ 2019-10-23 11:18 淡然。 阅读(2336) 评论(0) 推荐(0) 编辑
摘要: 爬取多页电影信息及简介 爬取标题,评分,排名,摘要,剧情简介 使用 Feed exports 保存爬取的数据 代码: 阅读全文
posted @ 2019-10-22 15:42 淡然。 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 数据持久化的需求: 与其他系统交互的需求 数据持久化的方式: 保存为文件: json csv 保存到数据库中: mysql MongoDB 将数据保存在文件中的方法: Feed exports:将数据导出成常用格式的方法 默认支持的格式: JSON、JSON line、CSV、XML 使用方法: 在 阅读全文
posted @ 2019-10-22 14:58 淡然。 阅读(139) 评论(0) 推荐(0) 编辑