05 2017 档案
摘要:Kaggle的房价数据集使用的是Ames Housing dataset,是美国爱荷华州的艾姆斯镇2006-2010年的房价 1.特征探索和分析 1.了解特征的含义 首先使用Python的pandas加载一下训练样本和测试样本,数据的格式是csv格式的,且第一列是特征的名称 查看一下特征的维度 im
阅读全文
摘要:package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.{SQLContext, SparkSession} import or
阅读全文
摘要:import org.apache.spark.ml.classification.RandomForestClassifier import org.apache.spark.ml.regression.RandomForestRegressor import org.apache.spark.m
阅读全文
摘要:使用Stanford Corenlp对中文进行词性标注 语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题 添加的jar包有5个 代码 关于词性标记 动词,形容词(4种):VA,VC,VE,VV 1、谓词性形容词:VA 谓词性形
阅读全文
摘要:1.导入JSON数据的方式有两种,一种是在web管理界面中导入,另一种是使用curl命令来导入 2.导入的时候注意格式 使用curl可以导入的格式 在web界面中可以导入的格式 不可以导入的格式 格式转换的Scala代码 导入成功将会返回,导入之后需要等上一段时间才会生成索引 注意有可能还需要在下面
阅读全文
摘要:1.进入Solr管理界面http://localhost:8983/solr/ 可以看到Query中有若干的参数,其意义如下(参考:http://www.jianshu.com/p/3c4cae5dee8d) Solr的查询语法: Solr默认有三种查询解析器(Query Parser): Stan
阅读全文
摘要:1.在清华开源软件镜像站或者http://www.us.apache.org/dist/ 下载Solr的安装包,我下载的是solr-6.5.1.tgz 2.解压并移动到/usr/local目录下 3.安装Solr需要安装Java环境,假设Java环境是安装好的 4.解压solr-6.5.1.tgz目
阅读全文
摘要:spark可以使用SparkListener API在spark运行的过程中监控spark任务当前的运行状态,参考:SparkListener监听使用方式及自定义的事件处理动作 编写 MySparkAppListener package com.bigdata.spark import org.ap
阅读全文
摘要:参考: 广告点击率预估是怎么回事? 参考:推荐系统(10):样本拼接工程实践
阅读全文
摘要:参考:http://blog.csdn.net/xiangwanpeng/article/details/54586087 1.在下载目录下 sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz 2.解压,并复制到/usr/lo
阅读全文
摘要:Spark中常见的三种分类模型:线性模型、决策树和朴素贝叶斯模型。 线性模型,简单而且相对容易扩展到非常大的数据集;线性模型又可以分成:1.逻辑回归;2.线性支持向量机 决策树是一个强大的非线性技术,训练过程计算量大并且较难扩展(幸运的是,MLlib会替我们考虑扩展性的问题),但是在很多情况下性能很
阅读全文
摘要:1.安装request pip install requests 2.请求网页 下载地址:http://phantomjs.org/download.html >>> import requests >>> r = requests.get('https://wwww.baidu.com') >>>
阅读全文