随笔分类 - first crawler job
摘要:打开windows定时任务 开始 所有程序 附件 系统工具 任务计划程序 点击创建任务 设置重复任务间隔每小时执行一次 程序或脚本是python解释器的名称 起始于是python解释器的目录 添加参数是你的python程序的完整路径 亲测有效
阅读全文
摘要:zipfile.BadZipFile: File is not a zip file 出现这个问题一般是文件损坏的可能性比较大
阅读全文
摘要:没有新式语法错误,但是输出显示Redirection is not supported.(不支持重定向) 在stockflow中找到是因为从IDE中运行脚本的原因,比如pycharm,所有IDE都提供不是终端的控制台 换成cmd之后,问题解决
阅读全文
摘要:暂时更改sys.path sys.path.append()
阅读全文
摘要:import importlib import sys import random from urllib.request import urlopen from urllib.request import Request from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTex...
阅读全文
摘要:curl下载地址 https://curl.haxx.se/download.html 选择windows generic 下的 下载安装 安装完后解压配置系统环境变量 CURL_HOME E:\aaa\curl-7.61.0 在Path里追加%CURL_HOME%\I386 cmd下输入curl
阅读全文
摘要:python2才有urllib2模块,python3把urllib和urllib2封装成了urllib模块 使用urllib2打开网页的三种方法
阅读全文
摘要:安装pdfminer模块 pip3 install pdfminer3k 代码如下
阅读全文
摘要:得到手机版新闻 api 2018.7.30有效,之后不保证 从源代码发现是异步加载 抓包发现是ajax请求,带的参数有个token 在源码中找到token,拼接 https://m.igetget.com/share/course/api/articleInfo?token=KWn%2FCP3W2t
阅读全文
摘要:主要使用目的:任何应用程序通常需要设置安装所需并依赖一组类库来满足工作要求。要求文件是指定和一次性安装包的依赖项具体一整套方法。
阅读全文
摘要:reqeusts库,在使用ip代理时,单ip代理和多ip代理的写法不同 (目前测试通过,如有错误,请评论指正) 单ip代理模式 省去headers等 import requests proxy = { 'HTTPS': '162.105.30.101:8080' } url = '爬取链接地址' r
阅读全文
摘要:使用: from fake_useragent import UserAgent 最实用的 但我认为写爬虫最实用的是可以随意变换headers,一定要有随机性。在这里我写了三个随机生成user agent,三次打印都不一样,随机性很强,十分方便。 爬虫中具体使用方法 fake-useragent 将
阅读全文
摘要:CentOS(Community ENTerprise Operating System)是Linux发行版之一,它是来自于Red Hat Enterprise Linux依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定性的服务器以CentOS替代商业版的Red
阅读全文
摘要:#!/usr/bin/python和#!/usr/bin/env 的区别 #!/usr/bin/python 通常在一个.py文件开头都会有这个语句它只在Linux系统下生效,意思是当作为可执行文件运行时调用的解释器的位置上面代码的意思是调用/usr/bin/下的Python来作为解释程序,同样,你
阅读全文
摘要:官方解释 json(javascript object Notation)是一种轻量级的数据交换格式,易于人阅读和编写。同时也易于机器解析和生成。它基于javascript programming language,json采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯,这些特性使
阅读全文
摘要:ftp,securecrt,winscp等工具下载文件时候有选项,可选的有二进制方式和文本方式,文本方式又称为ascii方式 ascii方式和binary方式的区别是回车换行的处理 binary方式不对数据执行任何处理 ascii方式将回车换行转换为本机的回车字符,比如unix下是\n,window
阅读全文
摘要:元数据是描述其他数据的数据,或者说是用于提供某种资源的有关信息的结构数据。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源,评价资源,追踪资源在使用过程中的变化,实现简单高效的管理大量网络化数据,实现信息资源的有效发现,查找,一体化组织和对使用资源的有效管理
阅读全文
摘要:Chrome: 1.打开chrome浏览器,点击右上角的“自定义和控制Google Chrome”按钮 2.在下拉菜单中选择设置 3.点击设置页底部的“显示高级设置...” 4.在隐私设置下,点击“内容设置...”按钮.,点击cookie 5.在弹出的窗口中,选择“仅将本地数据保留到您退出浏览器为止
阅读全文
摘要:gevent是一个基于协程的python网络库,它使用greenlet在libev或libuv事件循环之上提供高级同步API 功能包括 基于libev或libuv的快速时间循环 基于greenlets的轻量级执行单元 重用python标准库中的概念的API(例如,有事件和队列) 具有SSL支持的协作
阅读全文