kakaok

2021年4月22日

摘要：最开始接触E的版本是2.3.4，随着功能和版本更新，现在已更新到7.10.2，但是在导出数据的时候遇到了一个小问题之前记得scroll，但是操作的是总是第一次成功，后面拿到scroll_id的第二次后就无法继续读取数据了，最后排查发现是自己疏忽了用法第一次： host = "*******" 阅读全文

posted @ 2021-04-22 10:56 kakaok 阅读(186) 评论(0) 推荐(0) 编辑

2021年3月16日

js控制滚动条自动往下滑动

摘要： function() { var height = document.body.clientHeight; var number = 0; //控制结束累加器 var length = 0; //控制每次翻滚长度 var frequency = 5; //控制总时间 var time = setIn 阅读全文

posted @ 2021-03-16 18:15 kakaok 阅读(3075) 评论(0) 推荐(0) 编辑

2021年2月5日

Pandas导出Excel的时候出现openpyxl.utils.exceptions.IllegalCharacterError异常问题

摘要：导入xlsxwriter 库 data = pd.DataFrame.from_records(results) data.to_excel(writer, sheet_name=sheet_title, columns=columns, engine='xlsxwriter', index=Fal 阅读全文

posted @ 2021-02-05 14:15 kakaok 阅读(1262) 评论(0) 推荐(0) 编辑

2020年12月14日

python拆分pubchem SDF文件

摘要：从pubchem下载的sdf文件是一个压缩格式，一个sdf里面有多个化学物质,需要拆分开单独保存，先将大的sdf拆分成一个个单独的sdf小文件，然后再读取每一行小文件的第一行获取CID编号 # coding=utf-8 def splitSDF(): file_name = "48600001_4 阅读全文

posted @ 2020-12-14 11:33 kakaok 阅读(2084) 评论(4) 推荐(0) 编辑

2020年10月21日

zlib压缩爬虫采集到的网页源码保存到mongodb减少存储空间

摘要： 1 mport zlib 2 import pymongo 3 4 def compress_html(infile,dst,level=9): 5 '''[summary] 6 7 [压缩文件] 8 Arguments: 9 infile {[string]} -- [输入文件路径] 10 dst 阅读全文

posted @ 2020-10-21 09:43 kakaok 阅读(268) 评论(0) 推荐(0) 编辑

2020年7月15日

openresty (lua-nginx_static_merger)合并css js文件减少请求次数，提升页面速度

摘要：网站访问速度优化，一般来说分为前端优化和服务端优化两个方面这次通过openresty 将多个css、js文件的多次请求统一到一次请求中，就是说一个页面中引用的所有css文件只请求一次就可拿到，js文件同理没合并请求之前如下图 css 和js 请求耗时118毫秒合并请求之后如下图：css和j 阅读全文

posted @ 2020-07-15 15:31 kakaok 阅读(634) 评论(0) 推荐(0) 编辑

2020年2月24日

scrapy采集—爬取中文乱码，gb2312转为utf-8

摘要：有段时间没怎么使用scrapy了，最近采集一个网页，发现网页编码是gb2312, 一开始就取搜索了下，发现各种操作都有，有在settings中设置 # FEED_EXPORT_ENCODING = 'utf-8'FEED_EXPORT_ENCODING = 'GB2312' 有在spider中设置r 阅读全文

posted @ 2020-02-24 14:38 kakaok 阅读(1738) 评论(1) 推荐(4) 编辑

2019年12月24日

不写代码的爬虫

摘要：不写代码的爬虫,鼠标直接点一点,数据哗哗就来了,采集数据从来没有这么轻松过,对很多不懂代码编程的销售人员、网络运营、市场运营、网络编辑、SEO等等都可以轻松采集常见的大多数网站数据博客园前5页话题数据采集案例, 特此记录下，以备不时之需 {"_id":"cnblogs","startUrl":[" 阅读全文

posted @ 2019-12-24 10:51 kakaok 阅读(268) 评论(2) 推荐(0) 编辑

2019年12月2日

爬虫如何发现更多的url呢,怎么动态收集新的url连接

摘要：大家在做爬虫采集数据的时候很多都会遇到增量采集的问题，有些时候是通过过滤url来进行的，有些是通过爬取网页后再进行分析判断，以上这些过程也许大部分做爬虫的都会这么做，各位有没有想过，除了以上的常用的方式还有没有其他的能够可以一次性批量获取先要的url连接地址呢？自己做爬虫也有很多年了，前不久听阅读全文

posted @ 2019-12-02 11:17 kakaok 阅读(964) 评论(0) 推荐(0) 编辑

2019年11月20日

pymysql 1064, 'You have an error in your SQL syntax; check the manual that corresponds to

摘要：在python 连接mysql时，最近一直出现了在execute的时候进行参数传递，可以正常入库了以前都是将参数与sql处理好一起传入excute,没怎么用过在execute中传递参数，特意看了下execute的定义，args的类型可以是tuple,list,dict中的任何一种，如果参数类型不阅读全文

posted @ 2019-11-20 11:15 kakaok 阅读(18889) 评论(0) 推荐(0) 编辑

公告