随笔档案「2019年6月」 - zfno11

hive元数据库理解

摘要：在hive2.1.1 里面一共有59张表表1 VERSION version表存hive的版本信息，该表中数据只有一条，如果存在多条，会造成hive启动不起来。表2 DBS DB_ID:数据库ID，DESC:数据库描述，DB_LOCATION_URI:数据HDFS路径，NAME:数据库名，OWN 阅读全文

posted @ 2019-06-24 16:14 zfno11 阅读(2192) 评论(0) 推荐(0)

CDH5.13.3安装手册

摘要：Server端需要打开端口 7180 7182 选址正确的版本，cdh版本不要高于cm版本 CM下载地址 http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.13.3_x86_64.tar.gz CDH下载地址 http 阅读全文

posted @ 2019-06-20 14:17 zfno11 阅读(1312) 评论(0) 推荐(0)

博客园自定义首页的游客访问

摘要：一: 登录 flagcounter.com 二: 选择自己的样式三点击get your flag counter 点击skip 四拷贝html信息到博客园的侧边公告栏阅读全文

posted @ 2019-06-19 16:57 zfno11 阅读(390) 评论(0) 推荐(0)

利用selenium 爬取豆瓣武林外传数据并且完成数据可视化情绪分析

摘要：全文的步骤可以大概分为几步：一：数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据（linux首选必选耦合）windows直接采用的是写mysql 二：数据存储（kafka+hive 或者mysql）+数据清洗shell +python3 阅读全文

posted @ 2019-06-19 14:32 zfno11 阅读(3684) 评论(0) 推荐(0)

hive各种报错

摘要：搭建了 CDH6.1.0环境新加入一台机器都hive但是报错 javax.jdo.JDODataStoreException: Required table missing : "`VERSION`" in Catalog "" Schema "". Unable to instantiate o 阅读全文

posted @ 2019-06-12 10:35 zfno11 阅读(670) 评论(0) 推荐(0)

python3.7 利用pyhive 连接上hive(亲测可用)

摘要：来python爬虫中，经常会遇到数据的存储问题，如果有大量数据，hive存储是个不错的选择。那么python如何来连接hive呢？网上有各种教程但是都不是很好用，亲自测试pyhive可用要求：可用的hive环境 python3++ hive环境必须要安装hiveserver2( HiveServ 阅读全文

posted @ 2019-06-11 21:59 zfno11 阅读(29164) 评论(0) 推荐(0)

linux无界面模式安装selenium+chrome+chromedriver并成功完成脚本（亲测可用）

摘要：环境:docker centos 7.4 能通外网写好的selenium脚本。具体步骤：一:安装selenium 这是最简单的直接利用二安装chrome 三安装chrome-driver 首先查看自己的chrome版本，因为是安装的稳定版 yum list | grep chrome 阅读全文

posted @ 2019-06-10 12:26 zfno11 阅读(9645) 评论(3) 推荐(1)

selenium 模拟登陆豆瓣，爬取武林外传的短评

摘要：selenium 模拟登陆豆瓣，爬去武林外传的短评：在最开始写爬虫的时候，抓取豆瓣评论，我们从F12里面是可以直接发现接口的，但是最近豆瓣更新，数据是JS异步加载的，所以没有找到合适的方法爬去，于是采用了selenium来模拟浏览器爬取。豆瓣登陆也是改了样式，我们可以发现登陆页面是在另一个fra 阅读全文

posted @ 2019-06-09 11:24 zfno11 阅读(896) 评论(0) 推荐(0)

selenium入门学习

摘要：在写爬虫的学习过程中，经常会有一些动态加载，有些是可以动过接口直接获取到，但是实在没办法，所以学习下selenium。首先百度一下： Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9 阅读全文

posted @ 2019-06-08 23:59 zfno11 阅读(386) 评论(0) 推荐(0)

linux shell 数组的使用

摘要：引言在Linux平台上工作，我们经常需要使用shell来编写一些有用、有意义的脚本程序。有时，会经常使用shell数组。那么，shell中的数组是怎么表现的呢，又是怎么定义的呢？接下来逐一的进行讲解，shell中的数组。数组的定义何为数组？学过计算机编程语言的同学都知道，数组的特性就是一组数据阅读全文

posted @ 2019-06-06 15:26 zfno11 阅读(278) 评论(0) 推荐(0)

python爬去虎扑数据信息，完成可视化

摘要：python 阅读全文

posted @ 2019-06-05 23:35 zfno11 阅读(720) 评论(0) 推荐(0)

linux shell 数组的使用

摘要：引言在Linux平台上工作，我们经常需要使用shell来编写一些有用、有意义的脚本程序。有时，会经常使用shell数组。那么，shell中的数组是怎么表现的呢，又是怎么定义的呢？接下来逐一的进行讲解，shell中的数组。数组的定义何为数组？学过计算机编程语言的同学都知道，数组的特性就是一组数据阅读全文

posted @ 2019-06-05 12:47 zfno11 阅读(7311) 评论(1) 推荐(0)

zfyolo

u only live once

06 2019 档案

公告