05 2022 档案

摘要:##搜狗细胞词库解析 ###一、 加载R包转换 library(rJava) library(Rwordseg) write.csv(as.data.frame(importSogouScel('wuliu.scel'))['dict.word'],'物流.csv') Dictionary: 物流词 阅读全文
posted @ 2022-05-22 06:34 郝hai 阅读(177) 评论(0) 推荐(0) 编辑
摘要:文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。 ###一 阅读全文
posted @ 2022-05-21 12:01 郝hai 阅读(331) 评论(0) 推荐(0) 编辑
摘要:文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。 ###一 阅读全文
posted @ 2022-05-21 11:46 郝hai 阅读(913) 评论(0) 推荐(0) 编辑
摘要:文本挖掘可以视为NLP(Natural language processing,自然语言处理)的一个子领域,目标是在大量非结构化文本中整理析取出有价值的内容。由于人类语言具有很高的复杂性,例如不同语言间语法不同,组成方式不同,还有语言种类的多样性,使得NLP是目前机器学习领域最困难的技术之一,里面的 阅读全文
posted @ 2022-05-20 08:29 郝hai 阅读(1282) 评论(0) 推荐(0) 编辑
摘要:文本挖掘是从非结构化的文本信息中抽取潜在的、用户感兴趣的重要模式或知识的过程,可以把它看作数据挖掘或数据库中知识发现的延伸。对文本信息的挖掘主要是以数理统计学和计算语言学为理论基础,让计算机发现某些文字出现的规律以及文字与语义、语法间的联系。文本挖掘涉及多个学科领域,如信息检索、文本分析、信息抽取等 阅读全文
posted @ 2022-05-19 20:58 郝hai 阅读(431) 评论(0) 推荐(0) 编辑
摘要:现在大家对爬虫的兴趣不断高涨,R和PYTHON是两个非常有力的爬虫工具。Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭。对于那些时间宝贵,又想从网上获取数据的初学者而言,用R做爬虫是最好的选择,有三个原因:R语法相对直观,规则更加灵活;对于数据量不大的 阅读全文
posted @ 2022-05-16 17:25 郝hai 阅读(2258) 评论(0) 推荐(0) 编辑
摘要:###常用R语言包 ——数据处理:lubridata ,plyr ,reshape2,stringr,formatR,mcmc; ——机器学习:nnet,rpart,tree,party,lars,boost,e1071,BayesTree,gafit,arules; ——可视化包:ggplot2, 阅读全文
posted @ 2022-05-04 22:08 郝hai 阅读(4057) 评论(0) 推荐(0) 编辑
摘要:在R语言中可以读写的最基本的数据格式就是text,以及csv文件。用read.table()或者read.csv函数就可以,相应的写入函数是write.table(),write.csv()。对于其它的格式文件,R语言有相应的包支持,我们最经常用的xlsx格式需要导入library(openxlsx 阅读全文
posted @ 2022-05-04 19:35 郝hai 阅读(683) 评论(0) 推荐(0) 编辑
摘要:随着社会和经济的不断进步,现代物流业蓬勃发展,如何充分利用时间、信息、仓储、配送和联运体系创造更多的价值,是物流运作必须解决的问题。日益复杂的运输活动使得运输问题变得越来越庞杂,但是其核心思想仍然是实现现有资源的最优化配置。运输问题经常出现在计划货物配送和从某些供给地区到达需求地区之间的服务中,特别 阅读全文
posted @ 2022-05-03 21:14 郝hai 阅读(1200) 评论(0) 推荐(0) 编辑
摘要:R语言在针对各类优化模型时都能快速方便的求解,对运输问题、生产计划问题、产销问题和旅行商问题等都有专门的R包来解决。线性规划与整数规划的区别主要在于对决策变量的取值约束有所不同。线性规划的决策变量为正实数,而整数规划则要求决策变量为正整数。在R语言中,有众多相关的R包可以解决这两类问题,例如stat 阅读全文
posted @ 2022-05-03 17:53 郝hai 阅读(1830) 评论(0) 推荐(0) 编辑
摘要:关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性 阅读全文
posted @ 2022-05-02 20:14 郝hai 阅读(576) 评论(0) 推荐(0) 编辑
摘要:生物神经网络主要是指人脑的神经网络,它是人工神经网络的技术原型。人脑是人类思维的物质基础,思维的功能定位在大脑皮层,后者含有大约10^11个神经元,每个神经元又通过神经突触与大约103个其它神经元相连,形成一个高度复杂高度灵活的动态网络。作为一门学科,生物神经网络主要研究人脑神经网络的结构、功能及其 阅读全文
posted @ 2022-05-02 18:19 郝hai 阅读(392) 评论(0) 推荐(0) 编辑
摘要:决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。分类树(决策树)是一种十分常用的分类方法。它是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新 阅读全文
posted @ 2022-05-02 15:47 郝hai 阅读(531) 评论(0) 推荐(0) 编辑
摘要:聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,最后的结果是希望同类之间的差异性尽可能小,不同类之间的差异性尽可能大。不同的类具有能够表达异于其他类的指标,这样针对不同的类,后续就能采取不一样的处理手段。聚类的应用场景的比较多,比如建立客户画像、商品聚类、离群值检验等等;与分类算法不一样,聚 阅读全文
posted @ 2022-05-02 09:03 郝hai 阅读(808) 评论(0) 推荐(0) 编辑
摘要:统计模拟是数理统计、和计算机科学的结合,是一门综合性学科。在科学研究和生产实际的各个领域中,普遍存在着大量数据的分析处理工作。如何应用数理统计中的方法来解决实际问题,以及如何解决在应用中出现的计算问题,对实际工作者来说是极需要解决的问题。统计模拟正是力求把统计思想、数值计算及在计算机上的实现结合起来 阅读全文
posted @ 2022-05-01 20:16 郝hai 阅读(1345) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示