摘要: 最近一段时间主要重心在Amazon电商数据分析上,这是一个偏数据分析和可视化的项目。具体来说就是先获取Amazon的商品数据,数据清洗和持久化存储后作为我们自己的数据源。分析模块和可视化模块基于数据进行一系列的操作。 显然,整个项目中最基本,也是最重要的就是前期数据的获取,本篇文章就是针对数据... 阅读全文
posted @ 2014-07-19 16:03 Sky_Money 阅读(6198) 评论(0) 推荐(0) 编辑
摘要: 今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了。我遇到的算是Beautiful... 阅读全文
posted @ 2014-07-19 15:56 Sky_Money 阅读(1561) 评论(0) 推荐(0) 编辑
摘要: 上一篇讨论了HMM的基本概念和一些性质,HMM在现实中还是比较常见的,因此也带来一了一系列的HMM应用问题。HMM应用主要面向三个方面:预测、解码和学习。这篇主要讨论预测。简单来说,预测就是给定HMM,和一个观察得到的可观察状态序列,求出通过HMM得到这个序列的概率是多少,这也是一般机器学习等领域中... 阅读全文
posted @ 2014-07-10 15:34 Sky_Money 阅读(1016) 评论(0) 推荐(0) 编辑
摘要: 一直想写点关于数学方面的blog,这对于数据挖掘分析,NLP处理等都有着比较重要的作用,之前在CSDN上想写点HMM方面的文章,一直没写成,最近几天终于抽点时间完成了HMM的文章,加以整理,遂有这个系列文章 首先是对HMM模型的介绍。 传统的马尔可夫模型(Markov Model)主要描述了... 阅读全文
posted @ 2014-07-10 15:12 Sky_Money 阅读(1220) 评论(0) 推荐(0) 编辑