03 2021 档案

摘要:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 48: ordinal not in range(128) url = 'http://gasssmes.sgerisssnssssass.cssn/pc/new 阅读全文
posted @ 2021-03-31 13:33 淋哥 阅读(115) 评论(0) 推荐(0) 编辑
摘要:以前解决这个问题,具体怎么解决的忘记了,这次有遇到同样的问题了,bing了好一段时间,这次记录下来以防止再次忘记 爬虫抓取的数据有四个字节,还是表情符号 使用的技术是 python2.7 mysql8.0 mysqldb 1. 创建数据表 CREATE TABLE `tests` ( `url_id 阅读全文
posted @ 2021-03-29 09:40 淋哥 阅读(109) 评论(0) 推荐(0) 编辑
摘要:直接上传代码 # coding: utf-8 import paramiko import os import time def file_transfer(): start_time = time.time() host = '' port = 22 username = '' password 阅读全文
posted @ 2021-03-29 08:48 淋哥 阅读(667) 评论(0) 推荐(0) 编辑
摘要:1. 问题描述: 往MySQL批量插入数据,一次插入六万行数据,大约是一个6M的json文件,然后报错 2006, 'MySQL server has gone away' 解决方法: 1. 执行命令 show global variables like 'max_allowed_packet'; 阅读全文
posted @ 2021-03-26 11:10 淋哥 阅读(324) 评论(0) 推荐(0) 编辑
摘要:在上篇文章中说了 mysql 查询慢的优化问题 文章标题是 mysql count 统计数据行数速度慢的解决方案 这篇文章着重分析selct count 为什么这么慢的原因 1。先查看MySQL数据表结构 CREATE TABLE `spider_71_ggzy_zgzfcgw_content` ( 阅读全文
posted @ 2021-03-26 11:09 淋哥 阅读(182) 评论(0) 推荐(0) 编辑
摘要:直接上脚本 # -*- coding: utf-8 -*- from elasticsearch import Elasticsearch # 日志的配置环境 import platform import logging.handlers sys_platform = platform.system 阅读全文
posted @ 2021-03-26 11:08 淋哥 阅读(894) 评论(0) 推荐(0) 编辑
摘要:MySQL 数据库有一张表,数据量是6800w条,现在使用count 对数据进行统计 1. 首先看下MySQL的表结构 CREATE TABLE `business_dict` ( `url_id` int(11) NOT NULL AUTO_INCREMENT, `company_name` va 阅读全文
posted @ 2021-03-16 09:38 淋哥 阅读(460) 评论(0) 推荐(0) 编辑
摘要:1. 安装 pip install threadpool 2. 介绍 threadpool 支持python2.7和python3.x,线程池是一个对象,它维护一个工作线程池来并行执行耗时的操作。它通过将作业放入工作请求队列中将作业分配给这些线程,在那里它们被下一个可用线程拾取。然后在后台执行请求的 阅读全文
posted @ 2021-03-15 10:53 淋哥 阅读(1280) 评论(1) 推荐(0) 编辑
摘要:现在多进程多线程已经是老生常谈了,协程也在最近几年流行起来。python中有协程库gevent,py web框架tornado中也用了gevent封装好的协程。本文主要介绍进程、线程和协程三者之间的区别。 一、概念 1、进程 进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进 阅读全文
posted @ 2021-03-12 19:39 淋哥 阅读(419) 评论(0) 推荐(0) 编辑
摘要:import multiprocessing import time def func(msg): time.sleep(1) print multiprocessing.current_process().name + '-' + msg def spider(): time.sleep(2) p 阅读全文
posted @ 2021-03-12 19:37 淋哥 阅读(4128) 评论(0) 推荐(2) 编辑
摘要:1. 使用croniter 官方教程是:https://github.com/taichino/croniter 示例一:获得下次crontab执行的时间 from croniter import croniter from datetime import datetime print dateti 阅读全文
posted @ 2021-03-12 14:02 淋哥 阅读(5200) 评论(0) 推荐(0) 编辑
摘要:1. 需要对一个java架包每天定时重启,直接使用crontab 2. 停止程序脚本 touch top-spider.sh vim stop-spider.sh 输入如下代码 ps -ef|grep bigdata-crawler-web |grep -v grep | awk '{print $ 阅读全文
posted @ 2021-03-03 09:22 淋哥 阅读(1267) 评论(0) 推荐(0) 编辑
摘要:org.elasticsearch.client.transport.NoNodeAvailableException: None of the configured nodes are available: [{#transport#-1}{Mln3wtAkTMCwR_z9QIv-tA}{20.0 阅读全文
posted @ 2021-03-03 09:04 淋哥 阅读(436) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示