上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 38 下一页
摘要: 特征预处理: 什么是特征预处理? 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。 我们需要用到一些方法进行无量纲化,使不同规格的数据转换到同一规格 为什么我们要进行归一化/标准化? 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果 阅读全文
posted @ 2021-01-19 22:56 喜欢爬的孩子 阅读(1311) 评论(0) 推荐(0) 编辑
摘要: sklearn数据集 1 scikit-learn数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集,数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集,需要从网络 阅读全文
posted @ 2021-01-19 19:07 喜欢爬的孩子 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 源码如下: import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator # 打开文件 text_from_file = open('2019n 阅读全文
posted @ 2021-01-19 12:43 喜欢爬的孩子 阅读(4175) 评论(0) 推荐(0) 编辑
摘要: 直接上代码:(商品名称、单价、图片链接) import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; enc=ooWAQ8HPiB 阅读全文
posted @ 2021-01-19 12:25 喜欢爬的孩子 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 一、virtualenv 安装 1、下载distribute_setup.py文件,文件压缩包下载完之后,放在以前安装Python的目录下就行。双击运行文件(双击之后cmd会打开之后闪退,就是安装成功)。 运行这个文件: 链接:https://pypi.python.org/packages/sou 阅读全文
posted @ 2021-01-18 22:33 喜欢爬的孩子 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: 编程模型解释 RDD rdd.flatMap(_.split(" ")) .map((_, 1)) .reduceByKey(_ + _) .collect 针对自定义数据对象进行处理, 可以处理任意类型的对象, 比较符合面向对象 RDD 无法感知到数据的结构, 无法针对数据结构进行编程 DataF 阅读全文
posted @ 2021-01-18 17:01 喜欢爬的孩子 阅读(106) 评论(0) 推荐(1) 编辑
摘要: SparkStreaming Spark Streaming 的特点 特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码 一个非常重要的特点是, Spark Str 阅读全文
posted @ 2021-01-17 21:55 喜欢爬的孩子 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 需求介绍 思路整理 需求 项目的任务是统计出租车在不同行政区的平均等待时间, 所以源数据集和经过计算希望得到的新数据集大致如下 源数据集 目标数据集 目标数据集分析 目标数据集中有三列, borough, avg(seconds), stddev_samp(seconds) borough 表示目的 阅读全文
posted @ 2021-01-17 14:50 喜欢爬的孩子 阅读(176) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 基本操作: 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , " 阅读全文
posted @ 2021-01-17 13:18 喜欢爬的孩子 阅读(841) 评论(0) 推荐(0) 编辑
摘要: 词频统计: 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例: 代码及结果: @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w 阅读全文
posted @ 2021-01-17 11:22 喜欢爬的孩子 阅读(210) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 38 下一页