夏日的向日葵

2020年8月6日

摘要：假设属性income的最小值和最大值分别是5000元和58000元。利用Min-Max规范化的方法将属性的值映射到0至1的范围内，那么属性income的16000元将被转化为多少？ # coding:utf-8 from sklearn import preprocessing import num 阅读全文

posted @ 2020-08-06 16:21 夏日的向日葵阅读(3238) 评论(0) 推荐(0) 编辑

2020年8月5日

python对全班成绩进行数据清洗（pandas的使用）

摘要：对于给定的数据集，进行适当的数据清洗 import pandas as pd data = {'Chinese': [66, 95, 93, 90, 80, 80], 'English': [65, 85, 92, 88, 90, 90], 'Math': [None, 98, 96, 77, 90 阅读全文

posted @ 2020-08-05 15:37 夏日的向日葵阅读(775) 评论(0) 推荐(0) 编辑

2020年8月4日

python统计全班的成绩（numpy的使用）

摘要：按照给出的学生成绩，统计各科成绩的平均成绩、最小成绩、最大成绩、方差、标准差、并按总成绩排序，最后进行成绩输出。代码： import numpy as np score_type = np.dtype({'names':["name","chinese","english","math"],'fo 阅读全文

posted @ 2020-08-04 19:14 夏日的向日葵阅读(5046) 评论(0) 推荐(0) 编辑

2020年7月15日

python爬虫之动态渲染页面抓取-（Selenium）的使用

摘要：我们在爬虫的过程中，有一些动态渲染的页面，我们是请求不到数据的。因此，我们可以直接通过使用模拟浏览器运行的方式实现，那么就可以实现原本浏览器中可以看到的，抓取的数据就是什么样，即所见即所"得"(爬)；此时我们不用再去关心网页中JS使用了什么算法或者结构实现了页面渲染。 Python提供了许多模拟浏览阅读全文

posted @ 2020-07-15 22:44 夏日的向日葵阅读(3721) 评论(0) 推荐(0) 编辑

2020年7月14日

python之小米应用商店搜索

摘要：需求：我有一系列appname，想要判断这些appname是否在小米应用市场存在解决方案：小编写了一个爬虫小程序，返回搜索第一条appname，以此判断该APP是否在小米应用市场存在。 import requestsfrom bs4 import BeautifulSoup def save_fi 阅读全文

posted @ 2020-07-14 11:46 夏日的向日葵阅读(290) 评论(0) 推荐(0) 编辑

2020年7月12日

python之小米应用商店爬虫

摘要：以下是小米应用商店热门APP的爬虫代码：只爬取前十页： # coding=utf-8 import requests import re from bs4 import BeautifulSoup count=1 #爬取小米应用市场前十页 while count<11: # 获取排行榜页面的网页内阅读全文

posted @ 2020-07-12 23:36 夏日的向日葵阅读(944) 评论(0) 推荐(0) 编辑

2020年7月8日

python之Beautiful Soup的基本用法

摘要： Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。它有如下三个特点： Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不阅读全文

posted @ 2020-07-08 23:27 夏日的向日葵阅读(2952) 评论(0) 推荐(0) 编辑

2020年6月30日

python之时间序列分析（销售收入增长及季节性波动）

摘要：时间序列分析方法分为描述性时序分析和统计时序分析。在这里我们主要介绍描述性时序分析。描述性时序分析主要是通过直观的数据比较或通过图表的观测方式，寻找时间序列中蕴含的发展规律。我们以某淘宝店铺近两年销售收入的增长趋势和季节性波动趋势为例，展示如何使用python展现折线图数据源（仅展示部分）：过阅读全文

posted @ 2020-06-30 08:19 夏日的向日葵阅读(2165) 评论(0) 推荐(0) 编辑

2020年6月28日

spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析

摘要：用户文件users.dat的格式描述如下： 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码评级文件ratings.dat的格式描述如下： 1. userid::movieid::rating::timestamp 阅读全文

posted @ 2020-06-28 23:32 夏日的向日葵阅读(473) 评论(0) 推荐(0) 编辑

2020年6月27日

spark之Executor与初始化SparkSession

摘要：关于Executor：一个executor同时只能执行一个计算任务但一个worker(物理节点)上可以同时运行多个executor executor的数量决定了同时处理任务的数量一般来说，分区数远大于executor的数量才是合理的同一个作业，在计算逻辑不变的情况下，分区数和executor 阅读全文

posted @ 2020-06-27 11:56 夏日的向日葵阅读(2060) 评论(0) 推荐(0) 编辑

夏日的向日葵

公告