03 2019 档案

摘要:redis数据库属于非关系型数据库,数据存放在内存堆栈中,效率比较高。 其存储数据是以json格式字符串存储字典的,而类似的关系型数据库无法实现这种数据的存储。 在爬取数据时,将数据暂存到redis中,等数据采集完成后,在从redis里将数据读取,并写入mysql数据库中。 在数据采集方面不在多说, 阅读全文
posted @ 2019-03-29 15:15 青红*皂了个白 阅读(4926) 评论(0) 推荐(0) 编辑
摘要:起点作为主流的小说网站,在防止数据采集反面还是做了准备的,其对主要的数字采用了自定义的编码映射取值,想直接通过页面来实现数据的获取,是无法实现的。 单独获取数字还是可以实现的,通过requests发送请求,用正则去匹配字符元素,并再次匹配其映射关系的url,获取到的数据通过font包工具解析成字典格 阅读全文
posted @ 2019-03-28 13:05 青红*皂了个白 阅读(852) 评论(0) 推荐(0) 编辑
摘要:如果采用redis数据库集群操作方式爬取数据源,那么爬虫客户端最好设置redis数据库的密码,否则对方将无法进行数据库链接操作,并且会报未知错误。 redis-cli -h 192.168.1.53 -p 6379 -a 12345 (依次是 目标主机地址,端口号,对方数据库密码) 如此能确保集群的 阅读全文
posted @ 2019-03-23 21:42 青红*皂了个白 阅读(1676) 评论(0) 推荐(1) 编辑
摘要:创建scrapy项目:scrapy startproject car 创建spider文件:scrapy genspider suv price.pcauto.com.cn 当前项目的目标站点:https://price.pcauto.com.cn/top/k75-p1.html(太平洋汽车suv销 阅读全文
posted @ 2019-03-21 17:07 青红*皂了个白 阅读(856) 评论(0) 推荐(0) 编辑
摘要:要使用scrapy库,必须先安装开发依赖,最好先使用pip安装,如果安装twisted提示缺少vc或者框架,可以下载至本地后安装。 第三方扩展库地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载至本地后 运行 pip install 库文件.wel 建 阅读全文
posted @ 2019-03-07 15:32 青红*皂了个白 阅读(693) 评论(0) 推荐(0) 编辑
摘要:在pycharm里面默认就可以通过pip来安装selenium库,但是在在安装PhantomJS时需要手动去下载开发库,然后将其下的bin目录添加至系统环境变量。但是需要注意,最好直接将PhantomJS可执行文件直接移动到python安装根目录下。否则pycharm会提示找不到它的路径。(pip 阅读全文
posted @ 2019-03-03 17:26 青红*皂了个白 阅读(497) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示