睡觉不困

2022年1月4日

spark-shell报错java.lang.IllegalArgumentException: java.net.UnknownHostException: namenode

摘要：在使用spark on yarn启动spark-shell时，发现报错：是说找不到主机名为namenode的主机，那么应该是配置文件出错了。经过检查，发现是spark-defaults.conf文件配置错误，配置的时候直接将上面复制了下来，导致忘了修改为node1，所以配置时一定要细心更改后完阅读全文

posted @ 2022-01-04 23:24 睡觉不困阅读(1498) 评论(0) 推荐(0) 编辑

Idea运行时Scala报错Exception in thread "main" java.lang.NoSuchMethodError:com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

摘要：一.情况描述使用idea +scala+spark，运行程序代码如下： package cn.idcast.hello import org.apache.spark.rdd.RDD import org.apache.spark import org.apache.spark.SparkConf 阅读全文

posted @ 2022-01-04 19:44 睡觉不困阅读(1302) 评论(0) 推荐(0) 编辑

解决HDFS无法启动namenode，报错Premature EOF from inputStream；Failed to load FSImage file, see error(s) above for more info

摘要：一.情况描述启动hadoop后发现无法打开hdfs web界面，50070打不开，于是jps发现少了一个namenode：查看日志信息，发现如下报错： 2022-01-03 23:54:10,993 INFO org.apache.hadoop.hdfs.server.namenode.FSIm 阅读全文

posted @ 2022-01-04 00:55 睡觉不困阅读(1462) 评论(0) 推荐(0) 编辑

2022年1月3日

IDEA安装配置Scala环境

摘要：这里有详细步骤： windows上 IntelliJ IDEA安装scala环境详细初学阅读全文

posted @ 2022-01-03 17:55 睡觉不困阅读(223) 评论(0) 推荐(0) 编辑

2022年1月2日

spark配置双master时一直处于standby的情况

摘要：一.情况描述按照如下配置，使用zookeeper监听 SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:218 阅读全文

posted @ 2022-01-02 17:59 睡觉不困阅读(1076) 评论(0) 推荐(1) 编辑

2021年12月29日

python正则表达式替换或去除指定字符

摘要：代码： import re regEx = "[\n”“|]" # 去除字符串中的换行符、中文冒号、|，需要去除什么字符就在里面写什么字符 str= re.sub(regEx, "","|tayyyy“") print(str) 运行结果：阅读全文

posted @ 2021-12-29 16:41 睡觉不困阅读(1573) 评论(0) 推荐(0) 编辑

2021年12月28日

spark安装缓慢

摘要： Spark官网下载速度过慢?试试清华的镜像 https://mirrors.tuna.tsinghua.edu.cn/apache/spark/ 阅读全文

posted @ 2021-12-28 22:47 睡觉不困阅读(97) 评论(0) 推荐(0) 编辑

2021年12月24日

python爬取梦幻西游召唤兽资质信息（不包含变异）

摘要：一.分析 1.爬取网站：https://xyq.163.com/chongwu/ 2.获取网页源码： request.get("https://xyq.163.com/chongwu/").text 这里就有问题了这是查看网页源代码看到的源码，也是通过requests获取的源码，发现是空的这是在阅读全文

posted @ 2021-12-24 15:57 睡觉不困阅读(957) 评论(1) 推荐(0) 编辑

2021年12月23日

python爬虫---爬取网易云音乐

摘要：代码： import requests from lxml import etree text = requests.get("https://music.163.com/discover/toplist?id=3778678").text html = etree.HTML(text) id_li 阅读全文

posted @ 2021-12-23 15:21 睡觉不困阅读(129) 评论(0) 推荐(0) 编辑

python爬虫---表情包批量采集

摘要：代码： import requests from pyquery import PyQuery as pq # 比xpath还要灵活的html解析工具 # 定义请求 headers = { "Accept": "text/html,application/xhtml+xml,application/ 阅读全文

posted @ 2021-12-23 15:20 睡觉不困阅读(93) 评论(0) 推荐(0) 编辑

公告