摘要: 雪碧图识别(CNN 卷积神经网络训练) 镀金的天空 是一个互联网技能认证网站, 都是些爬虫题目。其中有一道题 爬虫-雪碧图-2 需要使用到图片识别。所以模仿 mnist ,用 CNN 卷积神经网络训练一个模型,准确率达到 99.90% 。 Github 项目源码 # 基于 tensorflow 2. 阅读全文
posted @ 2020-09-16 11:24 TurboWay 阅读(923) 评论(0) 推荐(0) 编辑
摘要: Github 项目源码 bigdata_practice 1.nginx 日志收集 # 查看日志配置,不知道配置路径的话,可以执行 nginx -t less /etc/nginx/nginx.conf # 查看日志 cd /var/log/nginx; ll # 合并打包日志 cat access 阅读全文
posted @ 2020-08-25 14:37 TurboWay 阅读(543) 评论(0) 推荐(1) 编辑
摘要: 1.环境 centos7 + flink 1.10.1 + Hadoop 2.6.0-cdh5.16.1 2.下载软件 2.1 下载flink # 下载 flink wget https://mirror.bit.edu.cn/apache/flink/flink-1.10.1/flink-1.10 阅读全文
posted @ 2020-06-11 19:33 TurboWay 阅读(1644) 评论(0) 推荐(0) 编辑
摘要: spiderman 基于scrapy-redis的通用分布式爬虫框架 github 项目地址 spiderman 目录 效果图 采集效果 爬虫元数据 分布式爬虫运行 单机爬虫运行 kafka实时采集监控示例 介绍 功能 原理说明 快速开始 下载安装 如何开发一个新爬虫 如何进行补爬 如何扩展分布式爬 阅读全文
posted @ 2020-06-05 16:18 TurboWay 阅读(1308) 评论(0) 推荐(0) 编辑
摘要: 1.docker 常用命令 分类 命令 说明 镜像 docker search mysql:5.7 搜索镜像 docker images 查看本地下载镜像 docker pull mysql:5.7 拉取镜像 docker rmi mysql:5.7 删除镜像 容器 docker ps -a 查看当 阅读全文
posted @ 2020-05-29 17:16 TurboWay 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 注意:impyla 既可以连接impala, 也可以连接hive 环境 : windows10 python版本:3.6 hive版本:1.1 亲测可用! impyla安装过程 安装依赖 pip install bit_array pip install thrift pip install thr 阅读全文
posted @ 2020-05-27 18:00 TurboWay 阅读(1920) 评论(0) 推荐(0) 编辑
摘要: docker是运行在linux上的容器技术。 win10安装docker 步骤:第一步 启用win10自带的虚拟化技术Hyper-V,第二步是安装docker,第三步是自定义docker 虚拟机 数据存放路径。 win10运行docker 原理:启动docker,docker 会通过Hyper-V生 阅读全文
posted @ 2020-05-20 16:09 TurboWay 阅读(38130) 评论(2) 推荐(2) 编辑
摘要: 一、.hive-staging_hive 产生的原因: 通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到 阅读全文
posted @ 2020-05-07 17:32 TurboWay 阅读(8181) 评论(0) 推荐(0) 编辑
摘要: pg查询元数据,生成表数据字典: 效果: 代码: SELECT A .attname 字段, concat_ws ( '', T .typname, SUBSTRING ( format_type (A .atttypid, A .atttypmod) FROM '\(.*\)' ) ) AS 类型 阅读全文
posted @ 2020-05-06 18:48 TurboWay 阅读(2031) 评论(0) 推荐(0) 编辑
摘要: 一、部署组件概览 该部署方式适用于 scrapy项目、scrapy-redis的分布式爬虫项目 需要安装的组件有: 1、scrapyd 服务端 【运行打包后的爬虫代码】(所有的爬虫机器都要安装) 2、logparser 服务端 【解析爬虫日志,配合scraoydweb做实时分析和可视化呈现】(所有的 阅读全文
posted @ 2019-12-10 20:31 TurboWay 阅读(2950) 评论(0) 推荐(2) 编辑