window10 安装spark调试环境
1、安装python
python 3.8.5
如果是公司,需要配置pip安装源
2、安装kafka-python
[kafka-python 2.0.0]
pip install kafka-python==2.0.0
3、安装sklearn
[scikit-learn 0.23.1]
pip install six==1.15.0
pip install pytz==2020.1
pip install setuptools_scm==4.1.2
pip install scipy==1.5.2
pip install cython==0.29.21
pip install numpy==1.19.1
pip install pandas==1.0.4
pip install pybind11==2.4.3
pip install scikit-learn==0.23.1
4、安装joblib
[joblib 0.16.0]
pip install joblib==0.16.0
5、安装sqlparse
[sqlparse]
pip install sqlparse==0.3.1
6、安装networkx
[networkx]
pip install networkx==2.3
7、安装pycryptodome
[pycryptodome]
pip install pycryptodome==3.9.7
8、安装pyspark
pip install pyspark
9、打开pycharm。配置刚才安装的pycharm
9、配置环境pyspark(/opt/ficonf/clients/Spark2x/ ),配置环境变量SPARK_HOME
10、修改hosts C:\Windows\System32\drivers\etc,增加ip和主机映射
8.35.37.53 hisin1
8.35.37.54 hisin2
8.35.37.58 hisin3
11、建立一个文件夹,增加以下jar,修改main中jar路径(公司特定)
12、删除spark_env jar中的 spark-streaming-kafka-0-10_2.11-2.4.5-hw-ei-302022.jar
13、认证文件
/opt/ficonf/oss/Auth
修改文件中认证文件的路径
14、安装protobuf
解压protobuf-all-3.9.0.tar.gz 和 protoc-3.9.0-win64.zip
protoc-3.9.0-win64\bin\protoc.exe 配置到path
在protobuf-3.9.0\python 文件下执行安装protobuf
python setup.py install
15、修改系统时间和FI服务器上一致