创客未来

2022年6月13日

摘要： 1.什么是互联网思维？建立在算法、共享、服务、品牌基础之上并能够很好的融入人性的平等等经济。 2.互联网思维特征大数据零距离驱透明惠分享便操作 3.九大思维 3.1 用户思维产品的本质就是用户需求。0-1的过程，冷启动阶段 3.2 简约思维简约而不简单，简约至上。例如：高德的lbs（阅读全文

posted @ 2022-06-13 11:09 创客未来阅读(849) 评论(0) 推荐(0) 编辑

2022年6月2日

爬虫_scrapy_某瓜视频

摘要： 1.settings.py # Scrapy settings for scrapy_ixigua project # # For simplicity, this file contains only settings considered important or # commonly used 阅读全文

posted @ 2022-06-02 13:21 创客未来阅读(103) 评论(0) 推荐(0) 编辑

爬虫_scrapy_请求头配置

摘要：某些网站建立了反爬手段，这就需要在爬取中设置UA和cookie 1.UA 的设置第一种方式在settings中找到 USER_AGENT，将内容写成真正的浏览器UA即可，将注释解开，这个UA 是全局的。第二种方式在DEFAULT_REQUEST_HEADERS种配置UA 2.cookie的设阅读全文

posted @ 2022-06-02 10:40 创客未来阅读(403) 评论(0) 推荐(0) 编辑

2022年6月1日

爬虫_scrapy__西瓜视频并保存数据库

摘要： #https://www.ixigua.com/search/%E5%B9%BF%E5%9C%BA%E8%88%9E/?logTag=da15511cf98419ebe3b8&tab_name=search import requests import pymysql url = 'https:// 阅读全文

posted @ 2022-06-01 15:32 创客未来阅读(577) 评论(0) 推荐(0) 编辑

2022年5月31日

爬虫_scrapy_post请求

摘要： import json import scrapy class TestpostSpider(scrapy.Spider): name = 'testpost' allowed_domains = ['fanyi.baidu.com'] # post请求如果没有参数那么这个请求将没有任何意义 # 所阅读全文

posted @ 2022-05-31 15:52 创客未来阅读(46) 评论(0) 推荐(0) 编辑

爬虫_scrapy_日志信息以及日志等级

摘要：（1）日志级别 CRITICAL：严重错误 ERROR：一般错误 WARNING：警告 INFO：一般信息 DEBUG：调试信息默认的日志等级是DEBUG 只要出现了DEBUG或者DEBUG以上等级的日志那么这些日志将会打印（2）settings.py文件设置默认的级别为DEBUG，会显示上阅读全文

posted @ 2022-05-31 15:38 创客未来阅读(152) 评论(0) 推荐(0) 编辑

爬虫_scrapy_数据插入数据库

摘要：本案是将爬取得到的数据插入到Mysql数据库中持久化保存。 1.创建持久化数据库创建数据库spider01，并创建一个book数据表 /* Navicat Premium Data Transfer Source Server : localhost(HRBJYKJ-Battery) Source 阅读全文

posted @ 2022-05-31 14:52 创客未来阅读(193) 评论(0) 推荐(0) 编辑

爬虫_scrapy_CrawlSpider

摘要： CrawlSpider （1）继承自scrapy.Spider （2）独门秘籍 CrawlSpider可以定义规则，再解析html内容的时候，可以根据连接规则提取出指定的链接，然后再向这些链接发送请求。所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSp 阅读全文

posted @ 2022-05-31 13:13 创客未来阅读(24) 评论(0) 推荐(0) 编辑

爬虫_scrapy_多级页面的数据爬取

摘要：本案例以爬取电影天堂第一级页面的电影名称和点击链接后二级页面的img地址，并将第一级的名称和第二级页面的图片地址一起写入json文件，涉及到多级页面数据的组合。创建项目和页面命令这里就不说了，可以参考我之前的文章，这里主要说明核心代码。 1.spiders下的mv.py代码 import scra 阅读全文

posted @ 2022-05-31 09:20 创客未来阅读(1010) 评论(0) 推荐(0) 编辑

2022年5月30日

爬虫_scrapy_多管道爬取多页面数据

摘要：本案例以爬取当当网的书名和图片，利用多个管道执行下载，一个管道执行写json文件，一个管道执行下载图片并保存本地 1.创建项目 scrapy startproject scrapy_dangdang 2.创建一个爬虫文件爬取地址：http://category.dangdang.com/cp01. 阅读全文

posted @ 2022-05-30 16:21 创客未来阅读(339) 评论(0) 推荐(0) 编辑

公告