12 2021 档案

摘要:已经大半年没有更新博客了。。最近都跑去写分析报告半年没有R 这次记录下关于R循环(百万级以上)死慢死慢的问题,这个问题去年就碰到过,当时也尝试过多线程,but failed......昨天试了下,终于跑通了,而且过程还挺顺利 step1 先查下自己电脑几核的,n核貌似应该选跑n个线程,线程不是越多越 阅读全文
posted @ 2021-12-23 16:04 MRO物料采购服务 阅读(1798) 评论(0) 推荐(0) 编辑
摘要:本次不讲原理,单纯用R语言计算句子相似度。 方式一:机械相似性两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现。——基于Jaccard相似系数计算句子相似度 Jaccard 系数指:句子A的分词词语与句子B的分词词语交集的大小与句子A的分词词语与句子B的分 阅读全文
posted @ 2021-12-23 15:51 MRO物料采购服务 阅读(1281) 评论(0) 推荐(0) 编辑
摘要:在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统。笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来。开篇内容参考: 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) R+NLP︱text2v 阅读全文
posted @ 2021-12-23 14:28 MRO物料采购服务 阅读(956) 评论(0) 推荐(0) 编辑
摘要:R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计 阅读全文
posted @ 2021-12-22 17:35 MRO物料采购服务 阅读(907) 评论(0) 推荐(0) 编辑
摘要:笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载步骤比较繁琐,可参考之前的博客: R语言·文本挖掘︱Rwordseg/rJava两包的安装(安 阅读全文
posted @ 2021-12-20 13:45 MRO物料采购服务 阅读(902) 评论(0) 推荐(0) 编辑
摘要:查看当前R版本: 命令:“sessionInfo()” 或者 命令:“packagesVersion()” mac 苹果用户需要五行代码解决问题: install.packages('devtools') #assuming it is not already installed library(d 阅读全文
posted @ 2021-12-20 11:13 MRO物料采购服务 阅读(7676) 评论(0) 推荐(0) 编辑
摘要:折腾好Rwordseg在R语言3.2版本的安装后,马上就来尝鲜了,在参考牛人的意见后,成果如下图,马上有实战的感觉了: 首先讲一下词云的步骤: 1.读取文档,这个文档可以是网络数据,也可以是文本文档,对于网络数据,有很多爬虫方法,如RCurl包,Rweibo包等等等等,还可以自己去申请一些开放数据库 阅读全文
posted @ 2021-12-18 13:49 MRO物料采购服务 阅读(677) 评论(0) 推荐(0) 编辑
摘要:Part5情感分析 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part5情感分析】 这是这个系列里面最后一篇文章了,其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的,我还处于初级研究阶段,用R里面现成的算法,来实现自己的 阅读全文
posted @ 2021-12-18 13:37 MRO物料采购服务 阅读(508) 评论(0) 推荐(0) 编辑
摘要:Part4文本分类 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part4文本分类】Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代; 阅读全文
posted @ 2021-12-18 13:36 MRO物料采购服务 阅读(298) 评论(0) 推荐(0) 编辑
摘要:Part3文本聚类 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part3文本聚类】分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介: 分类算法:http:// 阅读全文
posted @ 2021-12-18 12:01 MRO物料采购服务 阅读(312) 评论(0) 推荐(0) 编辑
摘要:Part1 安装依赖包 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part1安装依赖包】 R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。 第一步是安装Jav 阅读全文
posted @ 2021-12-18 11:59 MRO物料采购服务 阅读(129) 评论(0) 推荐(0) 编辑
摘要:随着银行业务规模和交易数量的增长,为了实现全行统一的数据存储及分析,各商业银行普遍实施了以Teradata、GreenPlum等为代表的中高端数据仓库系统项目,通过汇总银行内部各交易系统的数据,并根据数据标准化要求,进行清洗、转换,最终统一存储用于行内数据统计与分析。 但近几年,面对互联网金融的挑战 阅读全文
posted @ 2021-12-06 14:32 MRO物料采购服务 阅读(411) 评论(0) 推荐(0) 编辑
摘要:01什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。 用户画像 阅读全文
posted @ 2021-12-02 08:57 MRO物料采购服务 阅读(1912) 评论(0) 推荐(2) 编辑