摘要: jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install ji 阅读全文
posted @ 2017-01-18 23:05 tonglin0325 阅读(6239) 评论(1) 推荐(0) 编辑
摘要: pandas是python特征预处理常用的框架 1.查看数据 加载数据 #-*- coding: utf-8 -*- import pandas as pd train_data = pd.read_csv("./data/train.csv") print(train_data) pandas显示 阅读全文
posted @ 2017-01-18 22:02 tonglin0325 阅读(799) 评论(0) 推荐(0) 编辑
摘要: 降维技术的好处: 1.使得数据集更易使用 2.降低很多算法的计算开销 3.取出噪声 4.使得结果易懂 在已标注和未标注的数据上都有降维技术,降维的方法: 1.主成分分析(Principal Component Analysis,PCA)。在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择 阅读全文
posted @ 2017-01-18 10:45 tonglin0325 阅读(902) 评论(0) 推荐(0) 编辑