上一页 1 2 3 4 5 6 7 ··· 18 下一页
摘要: 1. Scala 安装 Scala 运行于Java平台(JVM,Java 虚拟机)上,并兼容现有的Java程序,Scala代码可以调用Java方法,访问Java字段,继承Java类和实现Java接口。在面向对象方面,Scala是一门非常纯粹的面向对象编程语言,也就是说,在Scala中,每个值都是对象 阅读全文
posted @ 2021-09-14 22:40 Hubery_Jun 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 使用VMware安装CentOS6.8详细教程 https://blog.csdn.net/weixin_44878850/article/details/89111148 1. 虚拟机安装、克隆 2. 网络配置 # 修改 hostname hostname hadoop1 hostnamectl 阅读全文
posted @ 2021-08-15 15:37 Hubery_Jun 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 1. 过滤器 要完成一个过滤的操作,至少需要两个参数。一个是抽象的操作符,Hbase 提供了枚举类型的变量来表示这些抽象的操作符:LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等;另外一个就是具体的比较器(Comparator),代表具体的比较逻辑,如果可以提高字节级的比较、字 阅读全文
posted @ 2021-08-15 15:34 Hubery_Jun 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 1. IDEA 连接 HBASE 1、idea 创建一个 maven 项目 2、添加相关依赖(HBASE 客户端(最主要)、服务端),pom.xml: <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactI 阅读全文
posted @ 2021-08-08 23:18 Hubery_Jun 阅读(644) 评论(0) 推荐(0) 编辑
摘要: # encoding:utf-8 import json import os base_dir = r"C:\Users\hj\Desktop\65548392\65548392" output_path = r"F:\400-练习脚本\kafka" # 输出结果 def check_str(): 阅读全文
posted @ 2021-06-03 23:12 Hubery_Jun 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 该爬虫是将本地一批 query(待翻译的文本),通过 bing 翻译的接口进行翻译,采用的是 asyncio 协程进行并发抓取。 问题:该爬虫因代理问题导致抓取任务失败,之前的做法是将失败的 query 写入另一个文件中,手续手动重新抓取,虽然也能解决但是不够智能也过于繁琐。 需求:实现失败自动重抓 阅读全文
posted @ 2021-05-17 22:23 Hubery_Jun 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 现有两张数据表:A、B: # A 表,只有 id 有唯一索引(primary key) id、name、description、age... # B 表,只有 id 有唯一索引(primary key) id、task_id、index_name、status、final_status... 问题: 阅读全文
posted @ 2021-05-17 22:21 Hubery_Jun 阅读(1044) 评论(0) 推荐(0) 编辑
摘要: 1. 配置 hadoop 依赖:JDK Hadoop 下载地址 winutils 1、解压 hadoop 到 F:\software\hadoop-2.7.1,配置文件位置:F:\software\hadoop-2.7.1\etc\hadoop 2、core-site.xml(配置默认hdfs的访问 阅读全文
posted @ 2021-05-05 23:05 Hubery_Jun 阅读(1281) 评论(0) 推荐(0) 编辑
摘要: 1. DataFrame 的创建 1.1 RDD 和 DataFrame 的区别 RDD 是一种弹性分布式数据集,Spark中的基本抽象。表示一种不可变的、分区储存的集合,可以进行并行操作 DataFrame是一种以列对数据进行分组表达的分布式集合, DataFrame等同于Spark SQL中的关 阅读全文
posted @ 2021-04-11 22:50 Hubery_Jun 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 1. 创建 RDD 主要两种方式: sc.textFile 加载本地或集群文件系统中的数据,或者从 HDFS 文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是 阅读全文
posted @ 2021-04-11 22:47 Hubery_Jun 阅读(145) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 18 下一页