摘要:
Centos 安装jdk 1. 查看yum包含的jdk版本 2. 这里我们下载jdk1.8 3. 配置全局变量 注意点:JAVA_HOME需要修改,查看/usr/lib/jvm路径下的java-1.8.0-openjdk名称略有不同 4. 全局变量生效 5. java 版本查看 Windows Ja 阅读全文
摘要:
Crond 关于编写完成的爬虫脚本,我们后续的操作无非是定时执行,以及挂掉的监听。定时执行的话可以用到crontab. 有两个坑吧,第一个在编辑定时任务的时候需要绝对路径,第二个就是scrapy.cfg需要放在当前目录下。 crontab文件的含义: 用户所建立的crontab文件中,每一行都代表一 阅读全文
摘要:
WordCount.py 使用spark-submit执行命令 Hadoop Web界面 阅读全文
摘要:
FirewallD 是 iptables 的一个封装,可以让你更容易地管理 iptables 规则 - 它并不是 iptables 的替代品。虽然 iptables 命令仍可用于 FirewallD,但建议使用 FirewallD 时仅使用 FirewallD 命令。 安装和管理 1. 启动服务,并 阅读全文
摘要:
1.安装pip 因为centos7.0自带的python系统是2.7.5,并没有安装pip,需要先安装pip 2.配置启动项 3.jupyter 无法远程访问 其实这时候,local如果有browser的话,就可以输入访问了,但是没有,所以需要远程访问: http://ip:8888,发现访问不了 阅读全文
摘要:
1. Scala的安装 注意点:版本匹配的问题, Spark 1.6.2 -- Scala2.10 Spark 2.0.0 -- Scala2.11 2. Spark的安装 输入pyspark 显示: 至此安装成功。 3.本地运行pyspark 4.在Hadoop YARN上运行pyspark 5. 阅读全文
摘要:
大纲: 赛题描述==》定位机器学习问题 数据分析==》特征选择==》算法选择==》参数优化 先分类,后回归,最后将每个回归模型用不同的算法进行模型融合。 流程: 熟悉数据: 前105个特征是关于游戏属性,后三个特征分别是平均在线时长,7日付费金额,7日付费次数,需要预测的是45日付费金额。 筛选特征 阅读全文
摘要:
hadoop fs -mkdir 创建HDFS目录 # hadoop fs -mkdir /data Hadoop fs -ls 列出HDFS目录 # hadoop fs -ls /data hadoop fs -copyFromLocal 复制本地文件到HDFS hadoop fs -put 使用 阅读全文