06 2019 档案
摘要:在hive2.1.1 里面一共有59张表 表1 VERSION version表存hive的版本信息,该表中数据只有一条,如果存在多条,会造成hive启动不起来。 表2 DBS DB_ID:数据库ID,DESC:数据库描述,DB_LOCATION_URI:数据HDFS路径,NAME:数据库名,OWN
阅读全文
摘要:Server端需要打开端口 7180 7182 选址正确的版本,cdh版本不要高于cm版本 CM下载地址 http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.13.3_x86_64.tar.gz CDH下载地址 http
阅读全文
摘要:一: 登录 flagcounter.com 二: 选择自己的样式 三 点击get your flag counter 点击skip 四 拷贝html信息到博客园的侧边公告栏
阅读全文
摘要:全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写mysql 二:数据存储(kafka+hive 或者mysql)+数据清洗shell +python3
阅读全文
摘要:搭建了 CDH6.1.0环境 新加入一台机器都hive但是报错 javax.jdo.JDODataStoreException: Required table missing : "`VERSION`" in Catalog "" Schema "". Unable to instantiate o
阅读全文
摘要:来python爬虫中,经常会遇到数据的存储问题,如果有大量数据,hive存储是个不错的选择。 那么python如何来连接hive呢?网上有各种教程但是都不是很好用,亲自测试pyhive可用 要求:可用的hive环境 python3++ hive环境必须要安装hiveserver2( HiveServ
阅读全文
摘要:环境:docker centos 7.4 能通外网 写好的selenium脚本。 具体步骤: 一:安装selenium 这是最简单的 直接利用 二 安装chrome 三 安装chrome-driver 首先查看自己的chrome版本,因为是安装的稳定版 yum list | grep chrome
阅读全文
摘要:selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是采用了selenium来模拟浏览器爬取。 豆瓣登陆也是改了样式,我们可以发现登陆页面是在另一个fra
阅读全文
摘要:在写爬虫的学习过程中,经常会有一些动态加载,有些是可以动过接口直接获取到,但是实在没办法,所以学习下selenium。 首先百度一下: Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9
阅读全文
摘要:引言 在Linux平台上工作,我们经常需要使用shell来编写一些有用、有意义的脚本程序。有时,会经常使用shell数组。那么,shell中的数组是怎么表现的呢,又是怎么定义的呢?接下来逐一的进行讲解,shell中的数组。 数组的定义 何为数组?学过计算机编程语言的同学都知道,数组的特性就是一组数据
阅读全文
摘要:引言 在Linux平台上工作,我们经常需要使用shell来编写一些有用、有意义的脚本程序。有时,会经常使用shell数组。那么,shell中的数组是怎么表现的呢,又是怎么定义的呢?接下来逐一的进行讲解,shell中的数组。 数组的定义 何为数组?学过计算机编程语言的同学都知道,数组的特性就是一组数据
阅读全文