摘要:
最开始接触E的版本是2.3.4,随着功能和版本更新,现在已更新到7.10.2,但是在导出数据的时候遇到了一个小问题 之前记得scroll,但是操作的是总是第一次成功,后面拿到scroll_id的第二次后就无法继续读取数据了, 最后排查发现是自己疏忽了用法 第一次: host = "*******" 阅读全文
摘要:
function() { var height = document.body.clientHeight; var number = 0; //控制结束累加器 var length = 0; //控制每次翻滚长度 var frequency = 5; //控制总时间 var time = setIn 阅读全文
摘要:
导入xlsxwriter 库 data = pd.DataFrame.from_records(results) data.to_excel(writer, sheet_name=sheet_title, columns=columns, engine='xlsxwriter', index=Fal 阅读全文
摘要:
从pubchem下载的sdf文件是一个压缩格式,一个sdf里面有多个化学物质,需要拆分开单独保存, 先将大的sdf拆分成一个个单独的sdf小文件,然后再读取每一行小文件的第一行获取CID编号 # coding=utf-8 def splitSDF(): file_name = "48600001_4 阅读全文
摘要:
1 mport zlib 2 import pymongo 3 4 def compress_html(infile,dst,level=9): 5 '''[summary] 6 7 [压缩文件] 8 Arguments: 9 infile {[string]} -- [输入文件路径] 10 dst 阅读全文
摘要:
网站访问速度优化,一般来说分为前端优化和服务端优化两个方面 这次通过openresty 将多个css、js文件的多次请求统一到一次请求中,就是说一个页面中引用的所有css文件只请求一次就可拿到,js文件同理 没合并请求之前 如下图 css 和js 请求耗时118毫秒 合并请求之后 如下图:css和j 阅读全文
摘要:
有段时间没怎么使用scrapy了,最近采集一个网页,发现网页编码是gb2312, 一开始就取搜索了下,发现各种操作都有,有在settings中设置 # FEED_EXPORT_ENCODING = 'utf-8'FEED_EXPORT_ENCODING = 'GB2312' 有在spider中设置r 阅读全文
摘要:
不写代码的爬虫,鼠标直接点一点,数据哗哗就来了,采集数据从来没有这么轻松过,对很多不懂代码编程的销售人员、网络运营、市场运营、网络编辑、SEO等等都可以轻松采集常见的大多数网站数据 博客园前5页话题数据采集案例, 特此记录下,以备不时之需 {"_id":"cnblogs","startUrl":[" 阅读全文
摘要:
大家在做爬虫采集数据的时候很多都会遇到增量采集的问题,有些时候是通过过滤url来进行的,有些是通过爬取网页后再进行分析判断, 以上这些过程也许大部分做爬虫的都会这么做,各位有没有想过, 除了以上的常用的方式还有没有其他的能够可以一次性批量获取先要的url连接地址呢? 自己做爬虫也有很多年了,前不久听 阅读全文
摘要:
在python 连接mysql时,最近一直出现了 在execute的时候进行参数传递,可以正常入库了 以前都是将参数与sql处理好一起传入excute,没怎么用过在execute中传递参数,特意看了下execute的定义,args的类型可以是tuple,list,dict中的任何一种,如果参数类型不 阅读全文