数据挖掘与机器学习是两个不同的概念;
数据挖掘中使用到机器学习的各种工具,而自然语言处理也是是一种机器学习的方式,属于数据挖掘的范畴。
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现
(英语:Knowledge-Discovery in Databases,简称:KDD)
中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性
(属于Association rule learning)的信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、
专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现
上述目标。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、
凸分析、算法复杂度理论等多门学科。
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构
使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,
它主要使用归纳、综合而不是演绎。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用
自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,
即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的
计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。