摘要: 原文地址: http://blog.sina.com.cn/s/blog_727a704c0102vn44.html 使用Python 进行简单文本类数据分析,包括: 分词 生成语料库,tfidf加权 lda主题提取模型 词向量化word2vec 参考: http://zhuanlan.zhihu. 阅读全文
posted @ 2021-07-06 18:30 老酱 阅读(551) 评论(0) 推荐(0) 编辑
摘要: ** 利用Python进行文本分类, 可用于过滤垃圾文本 抽样 人工标注样本文本中垃圾信息 样本建模 模型评估 新文本预测 参考: http://scikit-learn.org/stable/user_guide.html PYTHON自然语言处理中文翻译 NLTK Natural Languag 阅读全文
posted @ 2021-07-06 18:29 老酱 阅读(1240) 评论(0) 推荐(0) 编辑
摘要: 1.时间序列 不管在哪个领域中(金融学、经济学、生态学、神经科学、物理学等),时间序列数据都是一种重要的结构化数据形式,在多个时间点观察或者测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15分钟、每5分钟、每一个月等)。时间序列也可 阅读全文
posted @ 2021-07-06 18:27 老酱 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 一、初识Pandas Pandas 是基于 NumPy 的一个非常好用的库,它有两种自己独有的基本数据结构Series (一维)和 DataFrame(二维),它们让数据操作更简单了。虽然Pandas有着两种数据结构,但它依然是 Python 的一个库,所以,Python 中有的数据类型在这里依然适 阅读全文
posted @ 2021-07-06 18:26 老酱 阅读(2359) 评论(0) 推荐(0) 编辑
摘要: **前言:这是根据 B站《R语言入门与数据分析》 自学整理的学习笔记。非科班出身,之前也没接触过代码,自己理解能力也比较差,所以会显得外行又笨拙,但还是希望多交流学习,才有动力持续进步。 目前这个课程笔记还没完结,会边学边更新。 ** 文章目录 P1 课程介绍 P2 数据分析 P3 数据挖掘 P4 阅读全文
posted @ 2021-07-06 18:25 老酱 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 基本操作(包括读取数据) 设置工作目录 setwd('D://R/') 读取数据文件 listing<-read.csv('listings.csv',header = T,sep = ',',quote = '') listings<-na.omit(listing) # 去除所有含缺失值的行 连 阅读全文
posted @ 2021-07-06 18:24 老酱 阅读(666) 评论(0) 推荐(0) 编辑
摘要: 文章目录 第三章 数据探索 3.1数据质量分析 1.主要任务 2.缺失值分析 3.异常值分析 4.一致性分析 3.2数据特征分析 1.分布分析 2.对比分析 3.统计量分析 4.周期性分析 5.相关性分析 3.3 R语言主要数据探索函数 1.统计特征函数 2.统计作图函数 第三章 数据探索 什么是数 阅读全文
posted @ 2021-07-06 18:23 老酱 阅读(308) 评论(0) 推荐(0) 编辑
摘要: ‍‍‍‍‍‍‍‍‍ ** 作者简介 Introduction ** 姚某某 知乎专栏: https://zhuanlan.zhihu.com/mydata 往期回顾: [ R语言之高级数据分析「聚类分析」 ](http://mp.weixin.qq.com/s?__biz=MzA3MTM3NTA5N 阅读全文
posted @ 2021-07-06 18:22 老酱 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 我们需要用到的包有:arules、arulesViz、chron、dplyr、ggplot2、gplots、reshape2、wordcloud2、plyr。 > library("arules", lib.loc="~/R/win-library/3.5") > library("arulesVi 阅读全文
posted @ 2021-07-06 18:19 老酱 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://supstat.com.cn/blog/2015/01/07/use-r-in-banking-industry/ 研究方法 搜集银行业上市公司的财务数据分析股票价格的财务影响因素,观测流动比率、净资产负债比率、资产固定资产比率、每股收益、净利润、增长率、股价和公布时间等数据 阅读全文
posted @ 2021-07-06 18:17 老酱 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 文章目录 RNA-seq 数据分析流程 相关软件安装 下载数据 sra转fastq格式 数据质控 数据质控,过滤低质量reads,去接头 比对 首先下载参考基因组及注释文件,建立索引 比对 sam文件转bam 为bam文件建立索引 reads的比对情况统计 计数 counts 差异基因分析 RNA- 阅读全文
posted @ 2021-07-06 18:14 老酱 阅读(1130) 评论(0) 推荐(0) 编辑
摘要: 基于Hive和Spark的淘宝双11数据分析与预测 1.系统和环境要求(版本仅供参考): Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 Sqoop: 1.4.6 Spark: 2.1.0 Eclipse: 3.8 ECharts: 3. 阅读全文
posted @ 2021-07-06 18:12 老酱 阅读(3362) 评论(0) 推荐(0) 编辑
摘要: 以前总是分不清楚spark中flatmap和map的区别,现在弄明白了,总结分享给大家,先看看flatmap和map的定义。 map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一 阅读全文
posted @ 2021-07-06 18:05 老酱 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。 数据地址 链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz 数据格式以及意义: 111,30.655325 阅读全文
posted @ 2021-07-06 18:01 老酱 阅读(845) 评论(0) 推荐(0) 编辑
摘要: 文章目录 用例1:数据清洗 用例2:用户留存分析 用例3:活跃用户分析 用例4:活跃用户地域信息分析 用例5:用户浏览深度分析 本项目用到的文件获取如下,提取码: 6xdx 点我获取文件 注意:本文都是在spark-shell环境下完成 用例1:数据清洗 读入日志文件并转化为RDD[Row]类型 按 阅读全文
posted @ 2021-07-06 17:55 老酱 阅读(751) 评论(0) 推荐(0) 编辑
摘要: 一.数据来源 本次示例所用数据是来自搜狗实验室的用户查询日志。搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。 数据下载地址为:http://www.sogou.co 阅读全文
posted @ 2021-07-06 17:53 老酱 阅读(563) 评论(0) 推荐(0) 编辑
摘要: 声明: 因项目中使用clickhouse引擎这里springboot使用的方式是jdbc方式连接,这种方式的好处是可以使用clickhouse 自带的fetch方法批量从clickhouse中获取数据,对于大量数据的下载来说,比较好 因为如果全部拿到内存中处理,大量数据会有内存溢出的结果 如果批量多 阅读全文
posted @ 2021-07-06 17:14 老酱 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 获取数据 数据可以是自己爬取,也可以是其它方式获取,不多说。 数据的特征提取和数据清洗 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190116192233803.png?x-oss- process=image/watermark,type_ZmFuZ3p 阅读全文
posted @ 2021-07-06 17:11 老酱 阅读(398) 评论(0) 推荐(0) 编辑
摘要: ![](https://upload- images.jianshu.io/upload_images/10105021-baf5a49e9c73dd4f.png?imageMogr2/auto- orient/strip%7CimageView2/2/w/1240) 一提到数学,高等数学,线性代数 阅读全文
posted @ 2021-07-06 17:01 老酱 阅读(817) 评论(0) 推荐(0) 编辑
摘要: 最近几日忙于在淘宝上接单做数据分析,从接单的情况来看,数据分析主要的对象是在校大学生和部分在职公职人员。 分析的主要问题包括对问卷的数据分析与简单的模型建立。 SPSS对于问卷的数据分析: 1.数据的录入:需要将问卷的选项编码成数字,主要存在的问题包括问卷的答案可能是A B C D你需要通过重新编码 阅读全文
posted @ 2021-07-06 16:54 老酱 阅读(2121) 评论(0) 推荐(0) 编辑