摘要:
注意在pyspark中,要加载本地文件,必须采用“file:///”开头的这种格式执行第一条命令以后,并不会马上显示结果,因为,Spark采用惰性机制,只有遇到“行动”类型的操作,才会从头到尾执行所有操作。所以,下面我们执行一条“行动”类型的语句,就可以看到结果 eg: 执行: ./bin/kafk 阅读全文
摘要:
1、启动jupyter notebook报错: Hi, I have followed the install as described, but receive the following error on issuing 'jupyter notebook' File "/usr/local/l 阅读全文
摘要:
以下操作均为使用非root用户进行。 vim ~/.bashrc 在文件中添加: export PYSPARK_PYTHON=/usr/local/bin/python3 指定pyspark启动时使用的python版本, #export PYSPARK_DRIVER_PYTHON=ipython3 阅读全文
摘要:
预计搭建一个docker 镜像 集成python3 、selenium 和chrome 使用centos 或者ubuntu 最为基础镜像 搭建的环境比较大。后来发现了alpine 系统镜像。基础镜像只有4M大小。 然后根据实际需要的环境去进行软件包的安装。编写Dockerfile 文件搭建镜像可以进 阅读全文
摘要:
1、 打印当前python 的安装包位置 python3: python3 -c "from distutils.sysconfig import get_python_lib; print(get_python_lib())" python2: python -c "from distutils. 阅读全文
摘要:
为了实现在关机前执行脚本 在网上查了很久都没找到解决方法。 最后还是Google 帮了忙。 参考了以下链接: https://unix.stackexchange.com/questions/39226/how-to-run-a-script-with-systemd-right-before-sh 阅读全文
摘要:
写好对文件流的监听脚本 执行ssc.start() 时报错显示: An error occurred while calling z:org.apache.spark.streaming.api.python.PythonDStream.callForeachRDD. 无法启动监听进程 在环境变量中 阅读全文
摘要:
Python Tips Beautiful Soup 许多值得注意和学习的python编程技巧的总结 http://book.pythontips.com/en/latest/index.html Beautiful Soup 4.2.0 中文文档, 用于解析网页的库 https://www.cru 阅读全文
摘要:
Python的enumerate函数是一个神话般的存在,以至于它很难用一句话去总结它的目的和用处。 但是,它是一个非常有用的函数,许多初学者,甚至中级Pythonistas是并没有真正意识到。简单来说,enumerate()是用来遍历一个可迭代容器中的元素,同时通过一个计数器变量记录当前元素所对应的 阅读全文
摘要:
hdfs namenode -format start-dfs.sh 启动Datanode 在master节点启动 NameNode、SecondaryNameNode(如果master也作为DataNode 的话还会启动DataNode),在slave节点启动DataNode stop-dfs.s 阅读全文