上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页
摘要: 建议使用源码安装,版本和路径可控。 1.安装之前最好将其依赖的库一并安装: pip install gcc patch libpcre3 libpcre3-dev zlib1g zlib1g-dev openssl libssl-dev -y 或者使用apt-get install 若是centOS 阅读全文
posted @ 2019-04-03 18:04 青红*皂了个白 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 1.配置官方的mariadb的yum源,手动创建 mariadb.repo仓库文件 然后写入如下内容 [mariadb] name = MariaDB baseurl = http://yum.mariadb.org/10.1/centos7-amd64 gpgkey=https://yum.mar 阅读全文
posted @ 2019-04-03 13:12 青红*皂了个白 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 1.编译安装python3 1.下载python3的源码 cd /opt yum install wget -y 安装wget命令 wget https://www.python.org/ftp/python/3.6.2/Python-3.6.2.tgz 1.安装python3之前,环境依赖解决 通 阅读全文
posted @ 2019-04-02 18:10 青红*皂了个白 阅读(448) 评论(0) 推荐(0) 编辑
摘要: redis数据库属于非关系型数据库,数据存放在内存堆栈中,效率比较高。 其存储数据是以json格式字符串存储字典的,而类似的关系型数据库无法实现这种数据的存储。 在爬取数据时,将数据暂存到redis中,等数据采集完成后,在从redis里将数据读取,并写入mysql数据库中。 在数据采集方面不在多说, 阅读全文
posted @ 2019-03-29 15:15 青红*皂了个白 阅读(4862) 评论(0) 推荐(0) 编辑
摘要: 起点作为主流的小说网站,在防止数据采集反面还是做了准备的,其对主要的数字采用了自定义的编码映射取值,想直接通过页面来实现数据的获取,是无法实现的。 单独获取数字还是可以实现的,通过requests发送请求,用正则去匹配字符元素,并再次匹配其映射关系的url,获取到的数据通过font包工具解析成字典格 阅读全文
posted @ 2019-03-28 13:05 青红*皂了个白 阅读(816) 评论(0) 推荐(0) 编辑
摘要: 如果采用redis数据库集群操作方式爬取数据源,那么爬虫客户端最好设置redis数据库的密码,否则对方将无法进行数据库链接操作,并且会报未知错误。 redis-cli -h 192.168.1.53 -p 6379 -a 12345 (依次是 目标主机地址,端口号,对方数据库密码) 如此能确保集群的 阅读全文
posted @ 2019-03-23 21:42 青红*皂了个白 阅读(1665) 评论(0) 推荐(1) 编辑
摘要: 创建scrapy项目:scrapy startproject car 创建spider文件:scrapy genspider suv price.pcauto.com.cn 当前项目的目标站点:https://price.pcauto.com.cn/top/k75-p1.html(太平洋汽车suv销 阅读全文
posted @ 2019-03-21 17:07 青红*皂了个白 阅读(829) 评论(0) 推荐(0) 编辑
摘要: 要使用scrapy库,必须先安装开发依赖,最好先使用pip安装,如果安装twisted提示缺少vc或者框架,可以下载至本地后安装。 第三方扩展库地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载至本地后 运行 pip install 库文件.wel 建 阅读全文
posted @ 2019-03-07 15:32 青红*皂了个白 阅读(687) 评论(0) 推荐(0) 编辑
摘要: 在pycharm里面默认就可以通过pip来安装selenium库,但是在在安装PhantomJS时需要手动去下载开发库,然后将其下的bin目录添加至系统环境变量。但是需要注意,最好直接将PhantomJS可执行文件直接移动到python安装根目录下。否则pycharm会提示找不到它的路径。(pip 阅读全文
posted @ 2019-03-03 17:26 青红*皂了个白 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 爬虫里踩不完的坑,pathon2和python3版本问题,造成许多地方的使用差异。 比如此次用puyhon3简单的获取网页数据时,爆出类型错误,必须是byte类型或者文件对象类型,不能是str类型。而python2食用则代码正常。无fuck说…… 走代码: 标红的地方不可少,不然直接报错。 运用代理 阅读全文
posted @ 2019-02-23 11:59 青红*皂了个白 阅读(284) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页