2017 年 5月随笔档案 - tonglin0325

Kaggle学习笔记——房屋价格预测

摘要：Kaggle的房价数据集使用的是Ames Housing dataset，是美国爱荷华州的艾姆斯镇2006-2010年的房价 1.特征探索和分析 1.了解特征的含义首先使用Python的pandas加载一下训练样本和测试样本，数据的格式是csv格式的，且第一列是特征的名称查看一下特征的维度 im 阅读全文

posted @ 2017-05-28 21:24 tonglin0325 阅读(1761) 评论(0) 推荐(0) 编辑

Spark学习笔记——泰坦尼克生还预测

摘要：package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.{SQLContext, SparkSession} import or 阅读全文

posted @ 2017-05-26 16:19 tonglin0325 阅读(777) 评论(0) 推荐(0) 编辑

Spark学习笔记——手写数字识别

摘要：import org.apache.spark.ml.classification.RandomForestClassifier import org.apache.spark.ml.regression.RandomForestRegressor import org.apache.spark.m 阅读全文

posted @ 2017-05-25 23:46 tonglin0325 阅读(1022) 评论(0) 推荐(0) 编辑

Stanford Corenlp学习笔记——词性标注

摘要：使用Stanford Corenlp对中文进行词性标注语言为Scala，使用的jar的版本是3.6.0，而且是手动添加jar包，使用sbt添加其他版本的时候出现了各种各样的问题添加的jar包有5个代码关于词性标记动词，形容词（4种）：VA，VC，VE，VV 1、谓词性形容词：VA 谓词性形阅读全文

posted @ 2017-05-13 23:30 tonglin0325 阅读(13307) 评论(0) 推荐(0) 编辑

Solr学习笔记——导入JSON数据

摘要：1.导入JSON数据的方式有两种，一种是在web管理界面中导入，另一种是使用curl命令来导入 2.导入的时候注意格式使用curl可以导入的格式在web界面中可以导入的格式不可以导入的格式格式转换的Scala代码导入成功将会返回，导入之后需要等上一段时间才会生成索引注意有可能还需要在下面阅读全文

posted @ 2017-05-10 22:13 tonglin0325 阅读(2834) 评论(1) 推荐(0) 编辑

Solr学习笔记——查询

摘要：1.进入Solr管理界面http://localhost:8983/solr/ 可以看到Query中有若干的参数，其意义如下（参考：http://www.jianshu.com/p/3c4cae5dee8d） Solr的查询语法： Solr默认有三种查询解析器（Query Parser）： Stan 阅读全文

posted @ 2017-05-10 11:54 tonglin0325 阅读(439) 评论(0) 推荐(0) 编辑

Ubuntu下安装Solr

摘要：1.在清华开源软件镜像站或者http://www.us.apache.org/dist/ 下载Solr的安装包，我下载的是solr-6.5.1.tgz 2.解压并移动到/usr/local目录下 3.安装Solr需要安装Java环境，假设Java环境是安装好的 4.解压solr-6.5.1.tgz目阅读全文

posted @ 2017-05-10 10:02 tonglin0325 阅读(1432) 评论(0) 推荐(0) 编辑

Spark学习笔记——文本处理技术

摘要：1.建立TF-IDF模型阅读全文

posted @ 2017-05-07 23:20 tonglin0325 阅读(663) 评论(0) 推荐(0) 编辑

Spark学习笔记——spark listener

摘要：spark可以使用SparkListener API在spark运行的过程中监控spark任务当前的运行状态，参考：SparkListener监听使用方式及自定义的事件处理动作编写 MySparkAppListener package com.bigdata.spark import org.ap 阅读全文

posted @ 2017-05-06 16:18 tonglin0325 阅读(431) 评论(0) 推荐(0) 编辑

广告系统架构——CTR预估

摘要：参考：广告点击率预估是怎么回事？参考：推荐系统(10):样本拼接工程实践阅读全文

posted @ 2017-05-06 15:58 tonglin0325 阅读(404) 评论(0) 推荐(0) 编辑

Ubuntu安装redis缓存数据库

摘要：参考：http://blog.csdn.net/xiangwanpeng/article/details/54586087 1.在下载目录下 sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz 2.解压，并复制到/usr/lo 阅读全文

posted @ 2017-05-06 11:04 tonglin0325 阅读(451) 评论(0) 推荐(0) 编辑

Spark学习笔记——构建分类模型

摘要：Spark中常见的三种分类模型:线性模型、决策树和朴素贝叶斯模型。线性模型，简单而且相对容易扩展到非常大的数据集；线性模型又可以分成：1.逻辑回归；2.线性支持向量机决策树是一个强大的非线性技术,训练过程计算量大并且较难扩展(幸运的是,MLlib会替我们考虑扩展性的问题)，但是在很多情况下性能很阅读全文

posted @ 2017-05-01 20:10 tonglin0325 阅读(421) 评论(0) 推荐(0) 编辑

Python爬虫——使用request请求网页

摘要：1.安装request pip install requests 2.请求网页下载地址：http://phantomjs.org/download.html >>> import requests >>> r = requests.get('https://wwww.baidu.com') >>> 阅读全文

posted @ 2017-05-01 15:06 tonglin0325 阅读(1553) 评论(0) 推荐(0) 编辑

tonglin0325.github.io

05 2017 档案

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (616)

随笔档案 (590)

阅读排行榜

评论排行榜

推荐排行榜

最新评论