数据挖掘是指从大量数据中提取或“挖掘”知识。“大量数据”可以存放在数据库、数据仓库或其它信息库中。

学以致用,首先搞清数据挖掘能做什么,带着目标,有利于更好的学习。

数据挖掘能帮我们完成以下类型的任务:

1. 给出花费1000元以上的顾客特征的汇总,如年龄的分布、职业、地区分布等;
2. 比较经常访问网站的(每周登录两次以上)的用户与偶尔访问网站(每季度少于3次)的特征差别;
3. 从订单历史数据中发现哪些商品经常被一起购买,比如购买了啤酒的用户40%购买了尿布;
4. 从用户及订单历史数据中发现20~29岁的年收入在20000~29000的顾客中60%以上购买了数码相机;
5. 根据已有论文及其分类信息确定一篇新论文所属的学科分类;
6. 根据历史销售数据预测公司下一季度的营业额;
7. 根据点击日志,根据行为相似性对用户进行分组(簇);
8. 通过检测一个给定的账号与正常的付费相比,购买数额特别大来发现信用卡欺骗性使用;
9. 根据股票交易数据识别股票市场和特定公司股票的演变规律;
10. 根据Blog之间的引用对博客网络进行社区划分;
11. ……

总的来说,数据挖掘可以帮我们做两件事:一件是发现数据中的一般性质——描述,一件是对当前数据进行推断——预测。

书籍推荐:《数据挖掘概念与技术》、《数据挖掘导论


类别:学习 查看评论
文章来源:http://hi.baidu.com/yuxiaosong/blog/item/90955982b505e5a60df4d233.html