随笔档案「2019年9月」 - 张京墨

摘要：一：尺寸相同的图片拼接二：尺寸不相同的图片进行拼接例如：将这种图，拼接成一幅完整的图阅读全文

posted @ 2019-09-28 21:38 张京墨阅读(4468) 评论(2) 推荐(1)

摘要：一：分析过程：fidder + chrome开发者工具 1：输入nba跳转的页面，每页显示10条相关公众号的信息 2：分析网站得到每条标题的详情页链接地址在： 3，请求上图中的url，会返回一段js代码，js代码的作用是，构造一个的新的url，并对新的url进行了请求。认真分析一下这段js代码，除阅读全文

posted @ 2019-09-28 16:08 张京墨阅读(572) 评论(0) 推荐(0)

python数据分析第二版：数据加载，存储和格式

摘要：一：读取数据的函数 1.读取csv文件阅读全文

posted @ 2019-09-27 20:38 张京墨阅读(154) 评论(0) 推荐(0)

爬虫技术：代理池的维护

摘要：一：代理池维护的模块 1. 抓取模块Crawl，负责从代理网站上抓取代理抓取模块 2. 获取代理Getter，负责获取抓取模块返回的值，并判断是否超过存储模块的最大容量。获取模块 3.存储模块Redis，负责将抓取的每一条代理存放至有序集合中。存储模块 4.测试模块Tester，负责异步测试每阅读全文

posted @ 2019-09-26 15:57 张京墨阅读(553) 评论(0) 推荐(0)

python数据分析第二版：pandas

摘要：一：pandas 两种数据结构：series和dataframe series:索引（索引自动生成）和标签（人为定义）组成返回一个对象指定索引通过索引取值保留索引值的链接 series看做一个字典，它是索引到数据值的一个映射 python字典直接创建series 指定索引的顺序展示字典缺少阅读全文

posted @ 2019-09-24 21:39 张京墨阅读(668) 评论(2) 推荐(0)

爬虫技术：数据处理josn和pickle模块

摘要：一：json模块 json模块的作用就是讲json字符串（"{"a":1,"b":1}"）和python能够识别的字典进行相互转换。结论：loads: josn字符串 >和python字典之间的转换二：picke模块：将字节和python对象之间进行转换 import pickleimport 阅读全文

posted @ 2019-09-24 14:07 张京墨阅读(556) 评论(0) 推荐(0)

python数据分析第二版：numpy

摘要：一：Numpy numpy处理数据快的原因是：在一个连续的内存块中取存取数据。 1. numpy中的ndarray：一种多维的数组对象，是一种快速灵活的大数据容器。创建ndarray：数组的创建最简单的办法就是使用array函数，它接收一切序列型的对象，其中也包括数组。查看数组的维度和形状其他阅读全文

posted @ 2019-09-21 18:57 张京墨阅读(545) 评论(0) 推荐(0)

爬虫技术：爬取淘宝美食数据：崔庆才思路

摘要：# TODO selenium已经被检测出来 import random import re import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.we 阅读全文

posted @ 2019-09-21 18:19 张京墨阅读(575) 评论(0) 推荐(0)

机器学习：2.NPL自然语言处理

摘要：1. 词带的简单解释：每一个词出现了多少次，缺点是不知道顺序 2.seq2seq自然语言处理的核心 RNN: 一对一：输入一个，输出一个一对多：输入一个，输出多个多对一：输入多个，输出一个多对多：输入多个，输出多个原始数组：改变一次的数组：改变两次的数组：改变三次的数组结果输出：阅读全文

posted @ 2019-09-19 20:25 张京墨阅读(5975) 评论(0) 推荐(0)

爬虫技术：爬取今日头条数据-崔庆才思路

摘要：一. urllib库中将字典转化为url的查询参数二.请求异常的处理，以及内部的判断逻辑 1.返回的json数据为空：原因是requests的请求对象没有加请求头和cookies import requests from urllib.parse import urlencode def get_ 阅读全文

posted @ 2019-09-19 17:18 张京墨阅读(7306) 评论(0) 推荐(1)

爬虫技术：cookies池的维护

摘要：一：为什么要维护cookie 1.登录才能爬取内容 2.爬取频繁会被封号。 3.需要维护多个账号的cookie，实现大规模抓取二：cookies的要求 1.自动登录更新 2.定期筛选验证 3.提供外部接口三：cookies池的架构 # TODO 崔庆才基于Flask和redis动态维护cook 阅读全文

posted @ 2019-09-18 17:04 张京墨阅读(817) 评论(0) 推荐(0)

python基础面试题总结

摘要：1.python中深拷贝和浅拷贝的理解自己理解：浅拷贝，只是拷贝引用，不开辟新的空间存储拷贝内容。深拷贝，就是在内存中，开辟一个新的内存地址，将拷贝内容放到新的地址中去。验证：对于数字，字符串，元祖这种不可变类型的数据，深拷贝和浅拷贝拷贝的是内存地址的引用。不可变类型 import copy 阅读全文

posted @ 2019-09-17 19:14 张京墨阅读(274) 评论(0) 推荐(0)

docker：python与docker

摘要：一：环境准备 pycharm：专业版（windows） docker ce 免费版（ubantu16.04） os： os：防火墙二：开发流程 pycharm中开发环境搭建的工作原理： 1. pycharm中配置docker环境 docker是基于c/s的架构，ubantu上的client链接ub 阅读全文

posted @ 2019-09-12 16:18 张京墨阅读(1325) 评论(0) 推荐(0)

机器学习：1.K近邻算法

摘要：1.简单案例：预测男女，根据身高，体重，鞋码 2.图片分类图片分类结果绘图计算机进行分类的依据：像和不像那么什么叫像，什么叫不像呢？怎么定义呢？人类是如何判断两个物种像不像的问题？获取数据集，从哪里来？测量标注根据已经有的特征值，进行分析，筛选最能代表物种性质的特征根据特征值，训练模型阅读全文

posted @ 2019-09-11 20:14 张京墨阅读(408) 评论(0) 推荐(0)

面试题：总结

摘要：1. 进程和线程的区别线程是运行在进程里面的，进程可以包含多个线程，一个线程只能属于一个进程。线程会存在资源竞争的问题，因为数据共享是用的全局变量，进程之间的数据共享用的是内存。进程消耗资源大，多用于计算密集型，线程消耗资源小，多用于IO密集型。阅读全文

posted @ 2019-09-08 15:30 张京墨阅读(160) 评论(0) 推荐(0)

爬虫技术：去重知识点

摘要：1. 去重的场景 url去重：防止发送重复请求数据文本去重：防止储存重复数据 2.数据去重的原理什么类型的数据：重复的依据是什么：例如： data1 = ["123",123,"456","qwe","qwe"] 列表去重方法：例如： data1 = ["123",123,"456","q 阅读全文

posted @ 2019-09-07 23:07 张京墨阅读(674) 评论(0) 推荐(0)

爬虫技术：scrapy 知识点一

摘要：恢复内容开始 1.scrapy框架每一步的解释： step1：引擎从爬虫器获取要爬行的初始请求。 step2：引擎在调度程序中调度请求，引擎把这个初始请求传递给调度器，并向调度器索要下一个请求。 step3：调度程序将下一个请求返回给引擎。 step4：引擎通过下载器中间件将请求发送给下载器。 s 阅读全文

posted @ 2019-09-05 16:18 张京墨阅读(407) 评论(0) 推荐(0)

爬虫技术：分布式

摘要：1.简单的分布式流程图分布式：多进程分布式爬虫的案例：模块共6个：控制管理类（control_manager.py）,网页内容下载类（download.py）,页面解析类（Htmparse.py），数据写入类（save_manager.py）,url管理类（url_manager.py）,爬虫阅读全文

posted @ 2019-09-01 21:29 张京墨阅读(310) 评论(0) 推荐(0)

爬虫技术：携程爬虫阳光问政数据

摘要：携程爬取阳光问帖子：进行了简单的数据存储，数据量共145226条，爬取时间为：3.65小时，实际时间感觉要多于统计时间。代码如下：复习协程的知识：多线程会抢抢夺公共资源，因此会造成公共资源的不安全，需要通过线程锁进行解决，那么多个携程为什么不存在这个情况呢？因为多个协程也是在一个线程里面进行阅读全文

posted @ 2019-09-01 20:44 张京墨阅读(520) 评论(0) 推荐(0)

docker：docker的基本了解

摘要：1.什么是docker 简单的理解：docker相当于vmvare，容器相当于多个虚拟机，vmvare上可以运行ubantu16.04的虚拟机，也可以运行centos虚拟机，还可以运行redhat虚拟机。容器：完全隔离的环境，例如vmvare上两个虚拟机是相互隔离的。每一个虚拟机都得安装操作系统，阅读全文

posted @ 2019-09-01 18:48 张京墨阅读(522) 评论(0) 推荐(0)

mongodb数据库

摘要：1. mongodb是什么？ NoSQL 非关系型数据库，主要用于数据的海量存储。分为server数据存储端和client数据操作端。关系型与非关系型数据库的区别？ sql：数据库--表--数据 nosql：数据库集合--文档 2.mongoddb优势 1. 扩展性2. 大数据型，高性能3. 灵阅读全文

posted @ 2019-09-01 16:13 张京墨阅读(1251) 评论(0) 推荐(0)

张京墨

09 2019 档案

公告