摘要:
# -*- coding: utf-8 -*- # Author: Yakuho # Date : 2019/8/8 import asyncio import os import time import random from selenium import webdriver import button import win32api import win32con import queu... 阅读全文
摘要:
因为个人喜好问题,本博客无限期停止更新! 现在选择使用语雀来写自己的博客!(不得不夸一下语雀的编辑器真的却是好用!推荐下!) 由于刚开始使用,现在语雀的博客内容暂不对外开放!以后内容丰富了,再计划开放! 最后谢谢大家关照! 阅读全文
摘要:
Hadoop集群搭建 把环境全部准备好,包括编程环境。 JDK安装 JDK安装 版本要求: 强烈建议使用64位的JDK版本,这样的优势在于JVM的能够访问到的最大内存就不受限制,基于后期可能会学习到Spark技术,所以建议在搭建系统环境的时候把JDK的版本安装为64位。 如果已经安装,在你不确定安装 阅读全文
摘要:
人人都是数据咖 大数据产生背景 大数据产生背景 1.信息基础设施持续完善,包括网络带宽的持续增加、存储设备性价比不断提升,犹如高速公路之于物流,为大数据的存储和传播准备物质基础。 2.互联网领域的公司最早重视数据资产的价值,最早从大数据中淘金,并且引领大数据的发展趋势。 3.云计算为大数据的集中管理 阅读全文
摘要:
Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amaz 阅读全文
摘要:
利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB 目标站点分析 目标站点分析 淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐。所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息。这样我们只要关系操作,不用关 阅读全文
摘要:
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集 目标站点分析 今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据, 目标站点分析 今日头条这类的网站制作,从数据 阅读全文
摘要:
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析 流程框架 爬虫实战 目标站点分析 流程框架 爬虫实战 使用requests库获取top100首页: <!DOCTYPE html> <!--[if IE 8]><html class="ie8"><![endif]--> <!- 阅读全文
摘要:
知识点一:Selenium库详解及其基本使用 什么是Selenium 什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid) 阅读全文
摘要:
知识点一:PyQuery库详解及其基本使用 初始化 初始化 字符串初始化 <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a><>/li </li><li cl 阅读全文