随笔分类 - scrapy
摘要:1.建立项目: 2.进入项目目录: 3.建立域名任务: cmd全程记录: 4.pycharm打开项目,建立用于调试的文件:main.py 用到的函数解析:https://www.cnblogs.com/chenxi188/p/10876690.html main.py: 查看页面,确定需要解析哪些数
阅读全文
摘要:源https://www.jianshu.com/p/7c1a084853d8 开始前的准备工作: 1.MySQL下载:点我2.python MySQL驱动下载:pymysql(pyMySql,直接用pip方式安装) 3.全部安装好之后,我们来熟悉一下pymysql模块 一、确定items 我们要爬
阅读全文
摘要:(目录结构如上图) 在主目录中加入main.py,在其中加入代码,运行此文件就可以运行整个爬虫:
阅读全文
摘要:pycharm调试技巧:调试时,请求一次,下次直接调试,不必每次都启动整个爬虫,重新请求一整遍 【用法】cmd命令运行:scrapy shell 网址 第一步,cmd进行一次请求: 返回详情: C:\Users\Administrator>scrapy shell http://blog.jobbo
阅读全文
摘要:【目标】要完成的任务如下: ※ 创建一个 Scrap项目。※ 创建一个 Spider来抓取站点和处理数据。※ 通过命令行将抓取的内容导出。※ 将抓取的内容保存的到 MongoDB数据库。 【准备工作】需要安装好 Scrapy框架、 MongoDB和 PyMongo库 1.创建项目: 【操作】在想创建
阅读全文
摘要:说明:在命令行首先输入python【也可以直接打开python IDLE】,进入命令行模式,输入如上内容,如果成功输出了其版本内容,那么证明 PyMongo 成功安装 GitHub:https://github.com/mongodb/mongo-python-driver 官方文档:https:/
阅读全文
摘要:简单来说:MongoDB4.0在Windows下已经不需要再次配置db文件夹之类操作,安装完成直接进行连接测试即可,以下是具体过程(此前网上很多的教程都已经过时) 1.下载:https://www.mongodb.com/download-center/community?jmp=nav 下载下来的
阅读全文
摘要:第1种,太麻烦,不常用 第2种,当1亿条url时,占用内存过大,达9G 第3种,是第2种的优化,scrapy 用的即是第3种方法,可成倍减少内存占用,且不会重复 第4种,会大幅节省内存,1亿条url,占用空间:12M。但会出现冲突,把多个url算到一个位上去 第5种,是对4条的优化,减少冲突
阅读全文
摘要:8位(bit)=1字节(Byte),1024字节=1KB 【小技巧】在文档中,按住atl+数字,松开,会直接显示此数字对应的unicode码? ASCII码:使用指定的【7 位或8 位】(1字节),二进制数组合(即0和1),来表示128 或256 种可能的字符 1.美国人发明(American St
阅读全文
摘要:A.Anaconda如果已安装,那么可以通过 conda 命令安装 Scrapy,安装命令如下: B 1.安装pyopenssl,新版本直接使用命令即可,(老版本需要下载whl文件再安装) https://pypi.python.org/pypi/pyOpenSSL#downloads 2.安装Tw
阅读全文
摘要:第一步:安装环境支持[linux下在前加sudo] http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 第二步:用豆瓣源加速安装django(也可用国内的其它源,如阿里,163等等)[linux下在前加sudo] 第三步:新建一个名为scrapytes
阅读全文