随笔档案「2022年5月」 - 创客未来

爬虫_scrapy_post请求

摘要：import json import scrapy class TestpostSpider(scrapy.Spider): name = 'testpost' allowed_domains = ['fanyi.baidu.com'] # post请求如果没有参数那么这个请求将没有任何意义 # 所阅读全文

posted @ 2022-05-31 15:52 创客未来阅读(57) 评论(0) 推荐(0)

爬虫_scrapy_日志信息以及日志等级

摘要：（1）日志级别 CRITICAL：严重错误 ERROR：一般错误 WARNING：警告 INFO：一般信息 DEBUG：调试信息默认的日志等级是DEBUG 只要出现了DEBUG或者DEBUG以上等级的日志那么这些日志将会打印（2）settings.py文件设置默认的级别为DEBUG，会显示上阅读全文

posted @ 2022-05-31 15:38 创客未来阅读(195) 评论(0) 推荐(0)

爬虫_scrapy_数据插入数据库

摘要：本案是将爬取得到的数据插入到Mysql数据库中持久化保存。 1.创建持久化数据库创建数据库spider01，并创建一个book数据表 /* Navicat Premium Data Transfer Source Server : localhost(HRBJYKJ-Battery) Source 阅读全文

posted @ 2022-05-31 14:52 创客未来阅读(239) 评论(0) 推荐(0)

爬虫_scrapy_CrawlSpider

摘要：CrawlSpider （1）继承自scrapy.Spider （2）独门秘籍 CrawlSpider可以定义规则，再解析html内容的时候，可以根据连接规则提取出指定的链接，然后再向这些链接发送请求。所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSp 阅读全文

posted @ 2022-05-31 13:13 创客未来阅读(41) 评论(0) 推荐(0)

爬虫_scrapy_多级页面的数据爬取

摘要：本案例以爬取电影天堂第一级页面的电影名称和点击链接后二级页面的img地址，并将第一级的名称和第二级页面的图片地址一起写入json文件，涉及到多级页面数据的组合。创建项目和页面命令这里就不说了，可以参考我之前的文章，这里主要说明核心代码。 1.spiders下的mv.py代码 import scra 阅读全文

posted @ 2022-05-31 09:20 创客未来阅读(1124) 评论(0) 推荐(0)

爬虫_scrapy_多管道爬取多页面数据

摘要：本案例以爬取当当网的书名和图片，利用多个管道执行下载，一个管道执行写json文件，一个管道执行下载图片并保存本地 1.创建项目 scrapy startproject scrapy_dangdang 2.创建一个爬虫文件爬取地址：http://category.dangdang.com/cp01. 阅读全文

posted @ 2022-05-30 16:21 创客未来阅读(474) 评论(0) 推荐(0)

爬虫_scrapy shell

摘要：什么是scrapy shell ？ scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码/其本意是用来测试提取数据的代码，不过您可以将其作为正常的python终端，在上面测试任何的python代码。该终端是用来测试xpath或css表达式，查看他们的工作方式及从阅读全文

posted @ 2022-05-30 13:28 创客未来阅读(50) 评论(0) 推荐(0)

爬虫_scrapy_项目结构目录和基本方法

摘要：1.scrapy的项目结构 scrapy项目的结构项目名字项目名字 spiders文件夹（存储的是爬虫文件） init.py(默认文件) 自定义的爬虫文件（核心功能文件*） init items 定义数据结构的地方，爬取的数据都包含那些 middleware 中间件例如：代理 pipeline 阅读全文

posted @ 2022-05-30 11:14 创客未来阅读(365) 评论(0) 推荐(0)

爬虫_scrapy_基本使用

摘要：1.scrapy是什么？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。 2.安装scrapy pip install scrapy -i https://pypi.douban.com/simple 常见报错及解阅读全文

posted @ 2022-05-27 16:34 创客未来阅读(83) 评论(0) 推荐(0)

爬虫_request_cookie登录（隐藏域和验证码）

摘要：#通过登录然后进入到主页面 # 通过找登录接口我们发现登录的时候需要的参数很多 # __VIEWSTATE: Q9zeukk7PE5h9KCMT1uBtHMfNp6+Kfkwk5KywR928SJ/NJwdBGx04xq662yh/fA3/UuhXe7hlF0C19KQ3PHIFzj37k4o/UH 阅读全文

posted @ 2022-05-27 15:52 创客未来阅读(227) 评论(0) 推荐(0)

爬虫_requests

摘要：1.基本使用 1.1 文档官方文档： http://cn.python-requests.org/zh_CN/latest/ 快速上手： http://cn.python-requests.org/zh_CN/latest/user/quickstart.html 1.2.安装 pip insta 阅读全文

posted @ 2022-05-26 16:53 创客未来阅读(45) 评论(0) 推荐(0)

爬虫_selenium_Chrome handless

摘要：Chrome-headless 模式，Google针对Chrome浏览器59版本新增加的一种模式，可以让你不打开UI界面的情况下使用Chrome浏览器，所以运行效果于Chrome保持完美一致。 from selenium import webdriver from selenium.webdrive 阅读全文

posted @ 2022-05-26 16:08 创客未来阅读(194) 评论(0) 推荐(0)

爬虫_selenium_Phantomjs(停更了)

摘要：1.什么是Phantomjs？（1）是一个无界面的浏览器（2）支持页面元素查找，js的执行等（3）由于不进行css和gui渲染，运行效率要比真实的浏览器要快很多 2.如何使用Phantomjs? 获取PhantomJS.exe文件路径path browser=webdriver.Phantom 阅读全文

posted @ 2022-05-26 15:54 创客未来阅读(55) 评论(0) 推荐(0)

爬虫_selenium_访问元素信息及交互

摘要：1.访问元素信息获取元素属性 .get_attribute('class') 获取元素文本 .text 获取标签名 .tag_name from selenium import webdriver from selenium.webdriver.common.by import By path = 阅读全文

posted @ 2022-05-26 15:43 创客未来阅读(64) 评论(0) 推荐(0)

爬虫_selenium_元素定位

摘要：元素定位：自动化要做的就是模拟鼠标和键盘来操作这些元素，点击、输入等等。操作这些元素前首先要找到它们，webDriver提供很多定位元素的方法方法： 1. find_element_by_id # 根据id来找到对象 button = browser.find_element_by_id('su' 阅读全文

posted @ 2022-05-26 11:18 创客未来阅读(99) 评论(0) 推荐(0)

爬虫_selenium_基本使用

摘要：1.什么是selenium？（1）selenium是一个用于web应用程序测试工具（2）selenium测试直接运行在浏览器中，就像真正的用户在操作一样（3）支持通过各种driver（FirfoxDirver,IternetExploreDriver,OperaDriver,ChromeDri 阅读全文

posted @ 2022-05-25 16:17 创客未来阅读(81) 评论(0) 推荐(0)

爬虫_解析_BeautifulSoup

摘要：1.基本简介 BeautifulSoup简称：bs4 BeautifulSoup，和lxml一样，是一个html的解析器，主要功能也是解析和提取数据优缺点：效率没有lxml的效率高，接口设计人性化，使用方便 2.安装以及创建 2.1安装 pip install bs4 2.2导入 from bs4 阅读全文

posted @ 2022-05-25 15:45 创客未来阅读(93) 评论(0) 推荐(0)

爬虫_解析_JsonPath

摘要：1.Json Path介绍看它的名字你就能知道，这Json Path和JSON文档有关系，正如XPath之于XML文档一样，JsonPath为Json文档提供了解析能力，通过使用JsonPath，你可以方便的查找节点、获取想要的数据，JsonPath是Json版的XPath。 JsonPath只能阅读全文

posted @ 2022-05-25 13:10 创客未来阅读(205) 评论(0) 推荐(0)

爬虫_解析_xpath

摘要：1.xpath插件安装（1) 打开chrome浏览器（2）点击右上角小圆点（3）更多工具（4）扩展程序（5）拖拽xpath插件到扩展程序中（6）如果crx文件失效，需要将后缀修改为zip （7）再次拖拽（8）关闭浏览器重新打开（9）Ctrl + shift + x （10）出现小黑框阅读全文

posted @ 2022-05-24 16:37 创客未来阅读(110) 评论(0) 推荐(0)

爬虫_urllib_handler处理器

摘要：为什么要学习handler？如果定制更高级的请求头，随着业务逻辑的复杂请求对象的定制已经满足不了我们的需求（动态cookie和代理不能使用请求对象的定制） 1.Handler处理器的基本使用 #Handler的基本使用 import urllib.request url = 'http://www 阅读全文

posted @ 2022-05-24 13:21 创客未来阅读(79) 评论(0) 推荐(0)

爬虫_urllib的Cookie登录

摘要：适用场景：数据采集的时候需要经过登录然后进入到某个页面案例目的是跳过登录直接进入个人信息页面经过分析： 1.请求的url地址为：https://weibo.cn/2954041765/info 2.请求方式为：get 代码如下： #适用的场景：数据采集的时候需要绕过登录然后进入到某个页面 # i 阅读全文

posted @ 2022-05-24 09:39 创客未来阅读(189) 评论(0) 推荐(0)

爬虫_urllib_URLError和HTTPError（异常处理）

摘要：简介 1.HTTPError类是URLError类的子类 2.http错误：http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页面是哪里出现了问题 3.通过urllib发送请求的时候，有可能会发送失败，这个时候如果想让你的代码更加健壮性，可以通过try-except进行阅读全文

posted @ 2022-05-23 14:51 创客未来阅读(456) 评论(0) 推荐(0)

爬虫_urllib中ajax的post请求

摘要：下载肯德基官网中餐厅的数据。经过分析： 1.请求接口的地址：http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname 2.请求方式：post 3.请求参数：全部代码： #获取肯德基官网数据 # import urllib.parse 阅读全文

posted @ 2022-05-23 14:23 创客未来阅读(89) 评论(0) 推荐(0)

爬虫_urllib中ajax的get请求

摘要：1.爬取豆瓣电影第一页数据并下载 #get请求 #获取豆瓣电影的第一页的数据并且保持起来 import urllib.request url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=& 阅读全文

posted @ 2022-05-23 13:38 创客未来阅读(88) 评论(0) 推荐(0)

爬虫urllib中的Cookie反爬处理

摘要：1.通过对百度翻译的分析，现在找出在百度翻译中有个“详细翻译的接口” 即：https://fanyi.baidu.com/v2transapi?from=en&to=zh请求地址 2.查找Request Headers 3.详细代码 #百度详细翻译，反爬的第二种情况 Cookie import ur 阅读全文

posted @ 2022-05-23 10:20 创客未来阅读(278) 评论(0) 推荐(0)

爬虫_urllib的请求

摘要：1.get请求的quote方法 quote（）方法：是将汉字转换成unicode编码 import urllib.request import urllib.parse url = 'https://www.baidu.com/s?wd=' #请求对象的定制是为了解决反爬的第一种手段 headers 阅读全文

posted @ 2022-05-20 16:33 创客未来阅读(52) 评论(0) 推荐(0)

爬虫_请求对象的定制（UA反爬）

摘要：UA介绍 User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。为什么出现UA 案例代码 import urllib.request url = 'http 阅读全文

posted @ 2022-05-20 15:18 创客未来阅读(185) 评论(0) 推荐(0)

爬虫_urllib_下载

摘要：目的：将获取得到的信息下载到本地这里主要用到了 urllib.request.urlretrieve()方法 1.下载网页 # # 使用urllib 下载网页、图片、视频 #@author:tnwner #@date:2022-05-20 14:22 # import urllib.request 阅读全文

posted @ 2022-05-20 14:40 创客未来阅读(118) 评论(0) 推荐(0)

爬虫相关概念

摘要：1.什么是爬虫？通过一个程序，更加url进行爬取网页，获取有用信息。使用程序模拟浏览器，去向服务器发送请求，获取响应信息。 2.爬虫的核心？爬取网页：爬取整个网页，包含了网页中所有的内容解析数据：将网页中你得到的数据进行解析难点：爬虫和反爬虫之间的博弈 3.爬虫的用途？数据分析/人工数据集阅读全文

posted @ 2022-05-20 14:14 创客未来阅读(69) 评论(0) 推荐(0)

需求评审

摘要：1.什么是需求评审统一思想，明确需求，确定实现过程的会议。俗称挑刺大会，撕逼大会，逼死产品经理大会通常评审会要经过几次，一次完成要拼“专业度”和“产品人品值” 需求评审过程通常很激烈，通常会有很多类似问题逼问产品经理 -这样做很麻烦，开发难度很大（开发） -你考虑清楚了吗？真的要这么做吗？ - 阅读全文

posted @ 2022-05-17 16:09 创客未来阅读(221) 评论(0) 推荐(0)

需求文档怎么写

摘要：1. 项目背景与需求分析谁提的需求？什么场景？遇到什么问题？简要描述分析过程：决策过程和依据是什么？解决方案是什么？有没相关的背景数据资料？明确本次需求：用户、场景、需求、解决方案是什么？ 2. 本次需求的目的及功能列表这个需求整体式什么样子的？是否要分阶段？本次需求做难些？前后关系是什阅读全文

posted @ 2022-05-17 13:40 创客未来阅读(138) 评论(0) 推荐(0)

如何做已有功能的优化

摘要：功能点的优化是最基础的工作对功能点的不断优化就是迭代不要期望用新加功能来解决老的功能问题功能优化和新功能设计有什么区别？反应速度不同：邮件、甚至口头搞定。开发难度不同：一般都是1-3天/人的工作量。评判标准不同：更强调效果对比。分析产品功能的现状与逻辑对自己产品的功能点和竞品的功能点阅读全文

posted @ 2022-05-16 16:40 创客未来阅读(180) 评论(0) 推荐(0)

产品的调研

摘要：一、对独立产品的调研 1.1 产品的视角看产品照妖镜：了解产品功能，看产品的表现透视镜：通过迭代过程，看产品实现逻辑放大镜：透过一个产品，看穿一个行业。 1.2 用户、场景、需求是怎么被满足的？用户：有哪些类型的用户场景：不同类型的用户，分别在什么场景下会使用？需求：产品满足了用户的哪些阅读全文

posted @ 2022-05-16 16:17 创客未来阅读(131) 评论(0) 推荐(0)

功能点调研

摘要：阅读全文

posted @ 2022-05-16 14:40 创客未来阅读(12) 评论(0) 推荐(0)

整理需求

摘要：产品设计的核心三要素产品设计，就是不断解决用户在特定场景下的需求。增加、减少功能并非关键，关键能不能解决用户的问题。三要素：用户、场景、需求思维导图的思考方式潜在用户：当想到一个功能，先不要想怎么实现的，而是想谁会用潜在用户有哪些? 使用场景：用户分别在什么情况下会用（刚兴趣）？列出用阅读全文

posted @ 2022-05-16 14:35 创客未来阅读(71) 评论(0) 推荐(0)

用户调研

摘要：一、用户调研的全过程 1.1 明确背景和目的背景：什么情况下发起调研？是否必须用调研来解决。目的：通过用户调研希望得到的结果是什么？ 1.2 选择目标用户典型用户：通过简单的用户画像，找出典型用户。目标用户：时间、地点、配合程度。邀约用户：直接说明目的，并告知可能发生的情况。用户数量：不阅读全文

posted @ 2022-05-16 13:14 创客未来阅读(152) 评论(0) 推荐(0)

产品生命周期

摘要：什么是产品的生命周期？任何事情、任何物体都有生命周期拔苗助长现象互联网的生命周期阅读全文

posted @ 2022-05-16 11:03 创客未来阅读(65) 评论(0) 推荐(0)

产品经理成长体系

摘要：一.学习路径由浅入深，逐步展开：先学基础，逐步成长。学以致用：基于自身能力现状，提升即将用到的能力。以练带学：最好的学习，是深度的练习加上适当的理论。最好的学习是分享：分享自己的产出，点评别人的产出。二.用产品画布思考问题 2.1 以用户为中心产品分析过程 ① 用户群：典型目标用户或客户阅读全文

posted @ 2022-05-16 10:33 创客未来阅读(69) 评论(0) 推荐(0)

产品经理的职责

摘要：1.产品经理是什么？产品经理（PM）也称产品企划，是指在公司中针对某一项或是某一类的产品进行规划和管理的人员，主要负责产品的研发、制造、营销、渠道等工作。产品经理是很难定义的一个角色，如果非要一句话定义，那么产品经理是为终端用户服务，负责产品整个生命周期的人。产品经理——带领产品团队，在高效的时阅读全文

posted @ 2022-05-11 10:54 创客未来阅读(717) 评论(0) 推荐(0)

中台产品经理

摘要：1.简单理解什么是中台？我们可以把中台简单理解为一种“复用”，一种“公共能力”，也就是把前台和后台可以复用的核心功能抽象到中台；从而提高产品推出、市场验证的效率。 2.中台产品经理的价值？我们可以把中台产品经理分为“业务中台”和“数据中台”，从这两种分类理解中台经理的价值。 2.1 数据中台数阅读全文

posted @ 2022-05-11 10:10 创客未来阅读(245) 评论(0) 推荐(0)

创客未来

05 2022 档案

公告