摘要:
一、概念 1、什么是 UUID 的全称是 ,中文为 。 构成:由一组 32位 数的 16进制 数字所构成。 格式:以连字号分为五段,表现形式为 8 4 4 4 12 的32个字符,如下所示: xxxxxxxx xxxx Mxxx Nxxx xxxxxxxxxxxx 如:30385d15 0a88 4 阅读全文
摘要:
一、背景 1、Node.js 异步控制 在之前写的 "callback vs async.js vs promise vs async / await" 里,我介绍了 ES6 的 promise 和 ES7 的 async / await 的基本用法。 可以肯定的是, node.js 的异步控制(a 阅读全文
摘要:
一、JSON vs JS 对象 1、区别 | 区别 | Javascript 对象 | Json | |: |: | | | 含义 | 对象的实例 | 一种数据格式(序列化格式) | | 传输 | 不能传输 | 可以 跨平台 传输,轻量级 | | 格式 | 1.键不加引号、加单引号、双引号都行2.值 阅读全文
摘要:
背景:今年开始搞 Data science ,学了 python 小半年,但一直没时间整理整理。这篇文章很基础,就是根据廖雪峰的 python 教程 整理了一下基础知识,再加上自己的一些拓展,方便自己以后查阅。 一、基础 1、简介 (1) 历史 Python是著名的“龟叔”Guido van Ros 阅读全文
摘要:
一、init system 1、计算机是如何启动的 以早期 Fedora 系统为例。 1、开机 2、BIOS 和 GRUB(引导加载程序) 3、Linux 内核启动后,init 进程 是在 Fedora 上启动的第一个进程。进程 ID (PID) 为 1。它是系统中所有其它进程的母亲,用于启动其他服 阅读全文
摘要:
零、写在前面 本文涉及的反爬技术,仅供个人技术学习,禁止并做到: 干扰被访问网站的正常运行 抓取受到法律保护的特定类型的数据或信息 搜集到的数据禁止传播、交给第三方使用、或者牟利 如有可能,在爬到数据后24小时候内删除 具体可参考 2019年5月28号 颁布的 "《数据安全管理办法(征求意见稿)》" 阅读全文
摘要:
环境:CentOS 7 (阿里云服务器) 一、linux 发行版下的包管理阵营 包管理系统 除了方便你安装和管理包之外,还能帮你 解决依赖问题 。 下面就介绍2个最主要的: 1、Debian 系 dpkg (Debian Package Management System),中文为 Debian 包 阅读全文
摘要:
背景:之前做 Scrapy 爬虫,遇到一些编码的问题,导致自己损耗了一些不必要的时间,还是基础知识不扎实呀,所以专门来整理整理,遂成此篇。 一、概念 这里先厘清一些概念,方便接下来的阐述。 字节 byte:是计算机存储数据的存储单元,是一个8位的二进制数,所以最多只能表示256个数字(0-255) 阅读全文
摘要:
一、Node.js 日志 1、原生 Node.js 原生方法其实很简单,就四个: 配合 pm2 的 log 功能(参见我之前的 blog: "pm2 官方文档学习笔记 小蒋不素小蒋 博客园" ),可以对项目实现基础的日志功能。(目前我采用的也是这种) 2、第三方库 debug:比较简单,expres 阅读全文
摘要:
零、写在前面 本文涉及的反爬技术,仅供个人技术学习,禁止并做到: 干扰被访问网站的正常运行 抓取受到法律保护的特定类型的数据或信息 搜集到的数据禁止传播、交给第三方使用、或者牟利 如有可能,在爬到数据后24小时候内删除 具体可参考 2019年5月28号 颁布的 《数据安全管理办法(征求意见稿)》 一 阅读全文
摘要:
一、背景 为公司负责 Data Science 的同事配置线上 jupyter_server (jupyter + jupyter_kernel_gateway)环境。 二、环境 CentOS 7.6 三、安装 从最基础的 python 安装开始介绍。 1、python 采用编译安装,版本为 3.7 阅读全文
摘要:
一、介绍 1、是什么 npm 全称是 Node Package Manager,即 Node 包管理工具。 但是发展到后来,并不仅是适用于 node.js 的包。 所以现在看 node_modules 这个名字实在有点偏颇,现在 npm 自己都说自己是通用的包管理,并不局限于 node,然而这名字却 阅读全文
摘要:
一、介绍 Splash 跟之前我们介绍的 Selenium ( 参考 Selenium 与自动化测试 —— 《Selenium 2 自动化测试实战》读书笔记) 很类似,都可以理解成一个浏览器,提供网页动态渲染(css、javascript、flash 等)服务,并且都支持 HTTP API 与之交互 阅读全文
摘要:
一、介绍 官方文档: 中文 "https://www.lodashjs.com/docs/latest" 英文 "https://lodash.com/docs/4.17.15" 1、作用 是一套 工具库 ,内部封装了很多字符串、数组、对象等常见数据类型的处理函数。 2、组成 :全部功能 :只有核心 阅读全文
摘要:
一、什么是 CSS in JS 上图来源:https://2019.stateofcss.com/technologies/ CSS in JS 是2014年推出的一种设计模式,它的核心思想是把 CSS 直接写到各自组件中,而不是单独的样式文件里。 CSS in js 的发展: 最早就是内联样式 依 阅读全文
摘要:
一、什么是 CSS methodologies CSS methodologies,可以理解成 设计模式,也可以理解成 css 规范,市面使用情况如下图: 上图来源:https://2019.stateofcss.com/technologies/ 你可能在日常开发中并不会专门花时间去注意和了解 C 阅读全文
摘要:
一、介绍 Less (Leaner Style Sheets 简洁的样式表) 是一门向后兼容的 CSS 预处理语言,它扩展了CSS 语言。 less is more. 好处: 1、具有部分编程语言的功能,提高编码效率 2、提供模块化 3、结构清晰、易于拓展 4、完全兼容 css 缺点: 1、学习成本 阅读全文
摘要:
零、背景 之前在 node.js 下写过一些爬虫,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下。 本文内容主要侧重介绍爬虫的概念、玩法、策略、不同工具的列举和对比上,至于具体工具和框架的使用,会单独开辟独立的文章。 下面的工具排行,从上往下表示从简单到复杂, 阅读全文
摘要:
零、背景 我之前写过关于 charles 的使用笔记,为什么现在又要来写同类型的 mitmproxy 工具呢?下面我会娓娓道来他比 charles 多出的强大功能。 一、介绍 mitmproxy 是一个支持 HTTP 和 HTTPS 的抓包程序, 类似 Fiddle、Charles , 只不过它通过 阅读全文
摘要:
零、背景 公司最近有个爬虫的项目,先拿小红书下手,但是小红书很多内容 web 端没有,只能用 app 爬,于是了解到 Appium 这个强大的框架,即可以做自动化测试,也可以用来当自动化爬虫。 本文的代码只是一个简单的 spike,没有太多深入的实践。后续如果有深挖,我会来补充的。 一、介绍 App 阅读全文