随笔分类 -  数据挖掘和算法

摘要:过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。本文将分享严选的数据湖建设过程和思考。 1. 业务背景 网易严选在 2017 年中开始搭建自己的大数据体系,如 阅读全文
posted @ 2023-03-27 16:43 MRO物料采购服务 阅读(212) 评论(0) 推荐(0) 编辑
摘要:本文就目前较为冷门的一些数据任务优化手段做了简单的分析和总结,内容相对比较零散,不会聚焦常用的优化手段(比如小文件合并,数据倾斜等的优化等),只是对一些相对不太常见,但是在研发中又比较重要且有效的方式进行简单的一些沉淀,希望大家批评指正! 1. 前言 在离线数据研发中,随着业务复杂程度不断增加,数据 阅读全文
posted @ 2023-03-27 16:25 MRO物料采购服务 阅读(70) 评论(0) 推荐(0) 编辑
摘要:计算字符串相似度可以使用utils包中的adist函数,或者MKmisc包中的stringdist函数,或者RecordLinkage包中也有如jarowinkler之类的距离函数。本文介绍stringdist包中的stringdist函数和stringdistmatrix函数。stringdist 阅读全文
posted @ 2022-01-19 23:47 MRO物料采购服务 阅读(1076) 评论(0) 推荐(0) 编辑
摘要:已经大半年没有更新博客了。。最近都跑去写分析报告半年没有R 这次记录下关于R循环(百万级以上)死慢死慢的问题,这个问题去年就碰到过,当时也尝试过多线程,but failed......昨天试了下,终于跑通了,而且过程还挺顺利 step1 先查下自己电脑几核的,n核貌似应该选跑n个线程,线程不是越多越 阅读全文
posted @ 2021-12-23 16:04 MRO物料采购服务 阅读(1798) 评论(0) 推荐(0) 编辑
摘要:本次不讲原理,单纯用R语言计算句子相似度。 方式一:机械相似性两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现。——基于Jaccard相似系数计算句子相似度 Jaccard 系数指:句子A的分词词语与句子B的分词词语交集的大小与句子A的分词词语与句子B的分 阅读全文
posted @ 2021-12-23 15:51 MRO物料采购服务 阅读(1281) 评论(0) 推荐(0) 编辑
摘要:在之前的开篇提到了text2vec,笔者将其定义为R语言文本分析"No.1",她是一个文本分析的生态系统。笔者在学习之后发现开发者简直牛!基于分享精神,将自学笔记记录出来。开篇内容参考: 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介) R+NLP︱text2v 阅读全文
posted @ 2021-12-23 14:28 MRO物料采购服务 阅读(956) 评论(0) 推荐(0) 编辑
摘要:R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计 阅读全文
posted @ 2021-12-22 17:35 MRO物料采购服务 阅读(907) 评论(0) 推荐(0) 编辑
摘要:笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载步骤比较繁琐,可参考之前的博客: R语言·文本挖掘︱Rwordseg/rJava两包的安装(安 阅读全文
posted @ 2021-12-20 13:45 MRO物料采购服务 阅读(902) 评论(0) 推荐(0) 编辑
摘要:折腾好Rwordseg在R语言3.2版本的安装后,马上就来尝鲜了,在参考牛人的意见后,成果如下图,马上有实战的感觉了: 首先讲一下词云的步骤: 1.读取文档,这个文档可以是网络数据,也可以是文本文档,对于网络数据,有很多爬虫方法,如RCurl包,Rweibo包等等等等,还可以自己去申请一些开放数据库 阅读全文
posted @ 2021-12-18 13:49 MRO物料采购服务 阅读(677) 评论(0) 推荐(0) 编辑
摘要:Part5情感分析 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part5情感分析】 这是这个系列里面最后一篇文章了,其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的,我还处于初级研究阶段,用R里面现成的算法,来实现自己的 阅读全文
posted @ 2021-12-18 13:37 MRO物料采购服务 阅读(508) 评论(0) 推荐(0) 编辑
摘要:Part4文本分类 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part4文本分类】Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代; 阅读全文
posted @ 2021-12-18 13:36 MRO物料采购服务 阅读(298) 评论(0) 推荐(0) 编辑
摘要:Part3文本聚类 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part3文本聚类】分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介: 分类算法:http:// 阅读全文
posted @ 2021-12-18 12:01 MRO物料采购服务 阅读(312) 评论(0) 推荐(0) 编辑
摘要:Part1 安装依赖包 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part1安装依赖包】 R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。 第一步是安装Jav 阅读全文
posted @ 2021-12-18 11:59 MRO物料采购服务 阅读(129) 评论(0) 推荐(0) 编辑
摘要:随着银行业务规模和交易数量的增长,为了实现全行统一的数据存储及分析,各商业银行普遍实施了以Teradata、GreenPlum等为代表的中高端数据仓库系统项目,通过汇总银行内部各交易系统的数据,并根据数据标准化要求,进行清洗、转换,最终统一存储用于行内数据统计与分析。 但近几年,面对互联网金融的挑战 阅读全文
posted @ 2021-12-06 14:32 MRO物料采购服务 阅读(411) 评论(0) 推荐(0) 编辑
摘要:01什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。 用户画像 阅读全文
posted @ 2021-12-02 08:57 MRO物料采购服务 阅读(1912) 评论(0) 推荐(2) 编辑
摘要:本文我们使用4个时间序列模型对每周的温度序列建模。第一个是通过auto.arima获得的,然后两个是SARIMA模型,最后一个是Buys-Ballot方法。 我们使用以下数据 k=620n=nrow(elec)futu=(k+1):ny=electricite$Load[1:k]plot(y,typ 阅读全文
posted @ 2021-11-11 17:13 MRO物料采购服务 阅读(267) 评论(0) 推荐(0) 编辑
摘要:数据来源: R语言自带 Nile 数据集(尼罗河流量) 分析工具:R-3.5.0 & Rstudio-1.1.453 #清理环境,加载包 rm(list=ls()) library(forecast) library(tseries) #趋势查看 plot(Nile) #平稳性检验 #自相关图 ac 阅读全文
posted @ 2021-11-11 15:34 MRO物料采购服务 阅读(1372) 评论(0) 推荐(0) 编辑
摘要:时间序列预测的五种策略 简 介 时间序列预测就是利用过去一段时间的数据来预测未来一段时间内的信息,包括连续型预测(数值预测,范围估计)与离散型预测(事件预测)等,具有非常高的商业价值。 通常,时间序列预测描述了预测下一个时间步长的观测值。这被称为“单步预测”,因为仅要预测一个时间步。例如,给定最近7 阅读全文
posted @ 2021-11-10 10:49 MRO物料采购服务 阅读(1981) 评论(0) 推荐(0) 编辑
摘要:问题描述 名词定义 库存水位:在仓库存数量,用来满足需求。 补货时长(交货时间,lead_time) 从下达补货指令到货物到仓可用的时长。 本赛题初赛时的补货时长为14天,即假设1号A货物的库存水位为0,此时下达A货物补货指令,补货量为10,则1号至14号A货物的库存水位均为0,15号时A货物的库存 阅读全文
posted @ 2021-11-09 16:42 MRO物料采购服务 阅读(269) 评论(0) 推荐(0) 编辑
摘要:转载于 腾讯Bugly 发表于 腾讯Bugly的专栏 原文链接:https://cloud.tencent.com/developer/article/1389555 本文首先介绍BERT模型要做什么,即:模型的输入、输出分别是什么,以及模型的预训练任务是什么;然后,分析模型的内部结构,图解如何将模 阅读全文
posted @ 2021-11-05 14:38 MRO物料采购服务 阅读(546) 评论(0) 推荐(0) 编辑