project 2
1. 最后老师的答案输出为0.748,用来检测代码正确性
2. estimator有三个,分别为NaiveBayes、StringIndexer、CountVectorizer。三者在使用中需要fit,即一个training的过程。fit之后estimator转变为transformer。tokenizer不需要fit就可以直接使用
transform(DF)即真正的使用model,得到输出New DataFrame
3. 在同一个pipeline里面的estimator只能fit同一个DataFrame
4. task1.1即对raw data进行预处理,对csv的读取老师已经做完了,首先将每一句话打散成单词,通过tokenizer实现,起名为words。再利用CountVectorizer转为向量形式,起名为features。最后用StringIndexer转换成label,即0.0 1.0 2.0 的形式。将这些辅助工具放在pipeline里,最后返回pipeline
raw data
words
features
5.
6. task1.1结束之后,可以开始stacking
由于我们training出来的结果只能分成两类,所以解决方法就是多做几次分类