Hubery_Jun

2021年9月14日

摘要： 1. Scala 安装 Scala 运行于Java平台（JVM，Java 虚拟机）上，并兼容现有的Java程序，Scala代码可以调用Java方法，访问Java字段，继承Java类和实现Java接口。在面向对象方面，Scala是一门非常纯粹的面向对象编程语言，也就是说，在Scala中，每个值都是对象阅读全文

posted @ 2021-09-14 22:40 Hubery_Jun 阅读(153) 评论(0) 推荐(0)

2021年8月15日

VMWare 搭建 Hadoop 完全分布式集群（含HBASE）

摘要：使用VMware安装CentOS6.8详细教程 https://blog.csdn.net/weixin_44878850/article/details/89111148 1. 虚拟机安装、克隆 2. 网络配置 # 修改 hostname hostname hadoop1 hostnamectl 阅读全文

posted @ 2021-08-15 15:37 Hubery_Jun 阅读(1033) 评论(0) 推荐(0)

HBASE 过滤器

摘要： 1. 过滤器要完成一个过滤的操作，至少需要两个参数。一个是抽象的操作符，Hbase 提供了枚举类型的变量来表示这些抽象的操作符：LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等；另外一个就是具体的比较器（Comparator），代表具体的比较逻辑，如果可以提高字节级的比较、字阅读全文

posted @ 2021-08-15 15:34 Hubery_Jun 阅读(148) 评论(0) 推荐(0)

2021年8月8日

HBASE API 操作

摘要： 1. IDEA 连接 HBASE 1、idea 创建一个 maven 项目 2、添加相关依赖（HBASE 客户端（最主要）、服务端），pom.xml： <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactI 阅读全文

posted @ 2021-08-08 23:18 Hubery_Jun 阅读(749) 评论(0) 推荐(0)

2021年6月3日

FFmpeg 转换哔哩哔哩视频为 mp4 格式

摘要： # encoding:utf-8 import json import os base_dir = r"C:\Users\hj\Desktop\65548392\65548392" output_path = r"F:\400-练习脚本\kafka" # 输出结果 def check_str(): 阅读全文

posted @ 2021-06-03 23:12 Hubery_Jun 阅读(272) 评论(0) 推荐(0)

2021年5月17日

bing 翻译之 asyncio+queue解决失败重抓问题（2）

摘要：该爬虫是将本地一批 query（待翻译的文本），通过 bing 翻译的接口进行翻译，采用的是 asyncio 协程进行并发抓取。问题：该爬虫因代理问题导致抓取任务失败，之前的做法是将失败的 query 写入另一个文件中，手续手动重新抓取，虽然也能解决但是不够智能也过于繁琐。需求：实现失败自动重抓阅读全文

posted @ 2021-05-17 22:23 Hubery_Jun 阅读(199) 评论(0) 推荐(0)

MySQL left join 查询很慢（1）

摘要：现有两张数据表：A、B： # A 表，只有 id 有唯一索引（primary key） id、name、description、age... # B 表，只有 id 有唯一索引（primary key） id、task_id、index_name、status、final_status... 问题：阅读全文

posted @ 2021-05-17 22:21 Hubery_Jun 阅读(1086) 评论(0) 推荐(0)

2021年5月5日

Windows 搭建 hbase 单机版

摘要： 1. 配置 hadoop 依赖：JDK Hadoop 下载地址 winutils 1、解压 hadoop 到 F:\software\hadoop-2.7.1，配置文件位置：F:\software\hadoop-2.7.1\etc\hadoop 2、core-site.xml（配置默认hdfs的访问阅读全文

posted @ 2021-05-05 23:05 Hubery_Jun 阅读(1646) 评论(0) 推荐(0)

2021年4月11日

Spark SQL 编程（七）

摘要： 1. DataFrame 的创建 1.1 RDD 和 DataFrame 的区别 RDD 是一种弹性分布式数据集，Spark中的基本抽象。表示一种不可变的、分区储存的集合，可以进行并行操作 DataFrame是一种以列对数据进行分组表达的分布式集合， DataFrame等同于Spark SQL中的关阅读全文

posted @ 2021-04-11 22:50 Hubery_Jun 阅读(363) 评论(0) 推荐(0)

Spark RDD 操作（三）

摘要： 1. 创建 RDD 主要两种方式： sc.textFile 加载本地或集群文件系统中的数据，或者从 HDFS 文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件（Hadoop提供的 SequenceFile是阅读全文

posted @ 2021-04-11 22:47 Hubery_Jun 阅读(226) 评论(0) 推荐(0)

公告