Yellow 就怕你碌碌无为,还安慰自己平凡可贵 -------------yolo
摘要: 一: 登录 flagcounter.com 二: 选择自己的样式 三 点击get your flag counter 点击skip 四 拷贝html信息到博客园的侧边公告栏 阅读全文
posted @ 2019-06-19 16:57 zfno11 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写mysql 二:数据存储(kafka+hive 或者mysql)+数据清洗shell +python3 阅读全文
posted @ 2019-06-19 14:32 zfno11 阅读(3653) 评论(0) 推荐(0) 编辑
摘要: 搭建了 CDH6.1.0环境 新加入一台机器都hive但是报错 javax.jdo.JDODataStoreException: Required table missing : "`VERSION`" in Catalog "" Schema "". Unable to instantiate o 阅读全文
posted @ 2019-06-12 10:35 zfno11 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 来python爬虫中,经常会遇到数据的存储问题,如果有大量数据,hive存储是个不错的选择。 那么python如何来连接hive呢?网上有各种教程但是都不是很好用,亲自测试pyhive可用 要求:可用的hive环境 python3++ hive环境必须要安装hiveserver2( HiveServ 阅读全文
posted @ 2019-06-11 21:59 zfno11 阅读(28681) 评论(0) 推荐(0) 编辑
摘要: 环境:docker centos 7.4 能通外网 写好的selenium脚本。 具体步骤: 一:安装selenium 这是最简单的 直接利用 二 安装chrome 三 安装chrome-driver 首先查看自己的chrome版本,因为是安装的稳定版 yum list | grep chrome 阅读全文
posted @ 2019-06-10 12:26 zfno11 阅读(9387) 评论(3) 推荐(1) 编辑
摘要: selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是采用了selenium来模拟浏览器爬取。 豆瓣登陆也是改了样式,我们可以发现登陆页面是在另一个fra 阅读全文
posted @ 2019-06-09 11:24 zfno11 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 在写爬虫的学习过程中,经常会有一些动态加载,有些是可以动过接口直接获取到,但是实在没办法,所以学习下selenium。 首先百度一下: Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9 阅读全文
posted @ 2019-06-08 23:59 zfno11 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 引言 在Linux平台上工作,我们经常需要使用shell来编写一些有用、有意义的脚本程序。有时,会经常使用shell数组。那么,shell中的数组是怎么表现的呢,又是怎么定义的呢?接下来逐一的进行讲解,shell中的数组。 数组的定义 何为数组?学过计算机编程语言的同学都知道,数组的特性就是一组数据 阅读全文
posted @ 2019-06-06 15:26 zfno11 阅读(268) 评论(0) 推荐(0) 编辑
摘要: python 阅读全文
posted @ 2019-06-05 23:35 zfno11 阅读(660) 评论(0) 推荐(0) 编辑
摘要: 引言 在Linux平台上工作,我们经常需要使用shell来编写一些有用、有意义的脚本程序。有时,会经常使用shell数组。那么,shell中的数组是怎么表现的呢,又是怎么定义的呢?接下来逐一的进行讲解,shell中的数组。 数组的定义 何为数组?学过计算机编程语言的同学都知道,数组的特性就是一组数据 阅读全文
posted @ 2019-06-05 12:47 zfno11 阅读(7286) 评论(1) 推荐(0) 编辑