摘要: 此处处理非结构化数据(即自然语言)。 1.item_description(描述) 计算描述的字符长度 分析价格和字符长度之间的关系 移除异常值(即没有描述的行) 预处理:分词 1.先把描述拆分成句子,然后再把句子拆分成单词 2.移除标点和停词 3.单词小写 4.考虑单词长度等于或者大于3 查看分词 阅读全文
posted @ 2018-05-03 11:33 郑哲 阅读(733) 评论(0) 推荐(0) 编辑
摘要: https://www.kaggle.com/thykhuely/mercari-interactive-eda-topic-modelling 该题为的目的在于通过商家给予的商品的信息,建立一个商品的估价模型。 所给数据的大致分析: 列含义的分析:name:商品名 item_condition_i 阅读全文
posted @ 2018-05-03 09:03 郑哲 阅读(777) 评论(0) 推荐(0) 编辑
摘要: tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会 阅读全文
posted @ 2018-05-03 07:53 郑哲 阅读(202) 评论(0) 推荐(0) 编辑