达尔文在思考

2019年8月20日

摘要： # -*- coding: utf-8 -*- # Author: Yakuho # Date : 2019/8/8 import asyncio import os import time import random from selenium import webdriver import button import win32api import win32con import queu... 阅读全文

posted @ 2019-08-20 09:13 达尔文在思考阅读(1102) 评论(0) 推荐(0)

2019年2月11日

暂停更新公告

摘要：因为个人喜好问题，本博客无限期停止更新！现在选择使用语雀来写自己的博客！（不得不夸一下语雀的编辑器真的却是好用！推荐下！）由于刚开始使用，现在语雀的博客内容暂不对外开放！以后内容丰富了，再计划开放！最后谢谢大家关照！阅读全文

posted @ 2019-02-11 22:30 达尔文在思考阅读(120) 评论(0) 推荐(0)

2018年9月11日

大数据初级笔记二：Hadoop入门之Hadoop集群搭建

摘要： Hadoop集群搭建把环境全部准备好，包括编程环境。 JDK安装 JDK安装版本要求：强烈建议使用64位的JDK版本，这样的优势在于JVM的能够访问到的最大内存就不受限制，基于后期可能会学习到Spark技术，所以建议在搭建系统环境的时候把JDK的版本安装为64位。如果已经安装，在你不确定安装阅读全文

posted @ 2018-09-11 09:07 达尔文在思考阅读(846) 评论(0) 推荐(0)

2018年9月8日

大数据初级笔记一：大数据入门介绍

摘要：人人都是数据咖大数据产生背景大数据产生背景 1．信息基础设施持续完善，包括网络带宽的持续增加、存储设备性价比不断提升，犹如高速公路之于物流，为大数据的存储和传播准备物质基础。 2．互联网领域的公司最早重视数据资产的价值，最早从大数据中淘金，并且引领大数据的发展趋势。 3．云计算为大数据的集中管理阅读全文

posted @ 2018-09-08 17:00 达尔文在思考阅读(1307) 评论(0) 推荐(0)

2018年8月16日

PYTHON 爬虫笔记十一:Scrapy框架的基本使用

摘要： Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amaz 阅读全文

posted @ 2018-08-16 09:47 达尔文在思考阅读(329) 评论(0) 推荐(0)

2018年8月14日

PYTHON 爬虫笔记十:利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB（实战项目三）

摘要：利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB 目标站点分析目标站点分析淘宝页面信息很复杂的，含有各种请求参数和加密参数，如果直接请求或者分析Ajax请求的话会很繁琐。所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息。这样我们只要关系操作，不用关阅读全文

posted @ 2018-08-14 00:19 达尔文在思考阅读(573) 评论(0) 推荐(0)

2018年8月13日

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）

摘要：利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作，从数据形式，CSS样式都是通过数据接口的样式来决定的，所以它的抓取方法和其他网页的抓取方法不太一样，对它的抓取需要抓取后台传来的JSON数据，目标站点分析今日头条这类的网站制作，从数据阅读全文

posted @ 2018-08-13 08:15 达尔文在思考阅读(794) 评论(0) 推荐(0)

2018年8月10日

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）

摘要：利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战目标站点分析流程框架爬虫实战使用requests库获取top100首页： <!DOCTYPE html>  <!- 阅读全文

posted @ 2018-08-10 10:42 达尔文在思考阅读(1072) 评论(0) 推荐(0)

2018年8月9日

PYTHON 爬虫笔记七:Selenium库基础用法

摘要：知识点一：Selenium库详解及其基本使用什么是Selenium 什么是Selenium selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）阅读全文

posted @ 2018-08-09 17:38 达尔文在思考阅读(1851) 评论(0) 推荐(1)

PYTHON 爬虫笔记六:PyQuery库基础用法

摘要：知识点一：PyQuery库详解及其基本使用初始化初始化字符串初始化 <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a><>/li </li><li cl 阅读全文

posted @ 2018-08-09 10:05 达尔文在思考阅读(932) 评论(0) 推荐(0)

Aiuner

公告