05 2018 档案

摘要:#!/usr/bin/env python # encoding: utf-8 import asyncio from requests_html import HTMLSession import time script = """ () => { return { width: document.documentElement.client... 阅读全文
posted @ 2018-05-31 17:09 公众号python学习开发 阅读(9551) 评论(0) 推荐(0) 编辑
摘要:1.创建下载方式 2. 通过xpath指定区域内的元素下载,$x:直接调用xpath表达式,forEach循环语句 3.下载当前页面所有的图片 4.获取网页所有图片方法2 阅读全文
posted @ 2018-05-30 22:44 公众号python学习开发 阅读(600) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2018-05-30 10:36 公众号python学习开发 阅读(0) 评论(0) 推荐(0) 编辑
摘要:using System; //添加selenium的引用 using OpenQA.Selenium.PhantomJS; using OpenQA.Selenium.Chrome; using OpenQA.Selenium.Support.UI; using OpenQA.Selenium; using System.IO; using System.Collections.Generi... 阅读全文
posted @ 2018-05-30 10:33 公众号python学习开发 阅读(809) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 from functools import wraps import requests from lxml import html from selenium import webdriver from selenium.webdriver.chrome.options import Options impo... 阅读全文
posted @ 2018-05-29 17:09 公众号python学习开发 阅读(386) 评论(0) 推荐(0) 编辑
摘要:from furl import furl getlongtexturl="https://weibo.com/p/aj/mblog/getlongtext" params={ "ajwvr": "6", "mid": '4240964233025873', "is_settop": "", "is_... 阅读全文
posted @ 2018-05-25 09:15 公众号python学习开发 阅读(371) 评论(0) 推荐(0) 编辑
摘要:1.一个爬虫大佬的网站 https://www.urlteam.org/category/web_crawlers/ 2.反反爬虫仓库 https://github.com/luyishisi/Anti-Anti-Spider 3.useragent的一些信息 https://www.cnblogs 阅读全文
posted @ 2018-05-24 13:20 公众号python学习开发 阅读(251) 评论(1) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 import aiohttp import asyncio import time # 通过async def定义的函数是原生的协程对象 async def fetch_async(): conn=aiohttp.TCPConnector(verify_ssl=Flase) async wi... 阅读全文
posted @ 2018-05-23 16:49 公众号python学习开发 阅读(302) 评论(0) 推荐(0) 编辑
摘要:我们都知道对于I/O相关的程序来说,异步编程可以大幅度的提高系统的吞吐量,因为在某个I/O操作的读写过程中,系统可以先去处理其它的操作(通常是其它的I/O操作),那么Python中是如何实现异步编程的呢? 简单的回答是Python通过协程(coroutine)来实现异步编程。那究竟啥是协程呢?这将是 阅读全文
posted @ 2018-05-23 16:40 公众号python学习开发 阅读(4329) 评论(0) 推荐(4) 编辑
摘要:以下链接均来自网络 『Python并发编程』 理解Python并发编程一篇就够了 - 线程篇理解Python并发编程一篇就够了 - 进程篇使用Python进行并发编程-PoolExecutor篇使用Python进行并发编程-我为什么不喜欢Gevent使用Python进行并发编程-asyncio篇(一 阅读全文
posted @ 2018-05-23 14:15 公众号python学习开发 阅读(375) 评论(0) 推荐(0) 编辑
摘要:1.首先定义一个log文件 2.然后定义一个装饰器文件 在这里引用wraps,一个装饰器的装饰器,目的为了保持引用进来的函数名字不发生变化 3.在使用的时候直接在函数上面引用即可 阅读全文
posted @ 2018-05-22 15:16 公众号python学习开发 阅读(4271) 评论(0) 推荐(0) 编辑
摘要:前提: Android使用Charles抓取Https请求的报文时,Android和Charles都正确安装了证书之后出现抓包失败,报错SSLHandshake: Received fatal alert: certificate_unknown,如下图所示: 原因: 安卓7之后调整了安全策略会导致 阅读全文
posted @ 2018-05-22 00:01 公众号python学习开发 阅读(11498) 评论(1) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 import pymysql from config.config import * import datetime def get_conn(): conn=pymysql.connect(host=HOST,port=PORT,user=USER,passwd=PASSWORD,db=DB,char... 阅读全文
posted @ 2018-05-21 17:02 公众号python学习开发 阅读(6344) 评论(0) 推荐(0) 编辑
摘要:1. "su"的加密算法,su是username经过BASE64计算得来的: 2.获取sp的值,就是密码rsa的加密值 1.首先访问http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.pre 阅读全文
posted @ 2018-05-21 09:42 公众号python学习开发 阅读(1867) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 import requests from random import choice from lxml import html from urllib.parse import urljoin,quote import os import time NAMEURLDIC={} NAMEURLDIC_L2={} u... 阅读全文
posted @ 2018-05-18 10:55 公众号python学习开发 阅读(200) 评论(1) 推荐(0) 编辑
摘要:https://crontab.guru/ 阅读全文
posted @ 2018-05-17 10:30 公众号python学习开发 阅读(184) 评论(0) 推荐(0) 编辑
摘要:multiprocessing 用的最多的是pool.map,类似的还有pool.map_async这个是异步的,这两个需要传递的参数不同,另外python3不建议使用pool.apply了,具体我不很清楚自己查。 简单解释下上面代码用的参数,其中partial是一个偏函数,关于它的用法参照(我看着 阅读全文
posted @ 2018-05-17 10:20 公众号python学习开发 阅读(21650) 评论(3) 推荐(3) 编辑
摘要:#!/usr/bin/env python3 from functools import partial from itertools import repeat from multiprocessing import Pool, freeze_support def func(a, b): return a + b def main(): a_args = [1,2,3] ... 阅读全文
posted @ 2018-05-17 09:11 公众号python学习开发 阅读(10172) 评论(0) 推荐(0) 编辑
摘要:# -*-coding: utf-8-*- # Author : Christopher Lee # License: Apache License # File : test_example.py # Date : 2017-06-18 01-23 # Version: 0.0.1 # Description: simple test. import logging import ... 阅读全文
posted @ 2018-05-16 13:51 公众号python学习开发 阅读(1105) 评论(0) 推荐(0) 编辑
摘要:1.创建项目 我这里的项目名称为scrapyuniversal,然后我创建在D盘根目录。创建方法如下 打开cmd,切换到d盘根目录。然后输入以下命令: 如果创建成功,d盘的根目录下将生成一个名为scrapyuniversal的文件夹。 2.创建crawl模板 打开命令行窗口,然后定位到d盘刚才创建的 阅读全文
posted @ 2018-05-15 13:37 公众号python学习开发 阅读(671) 评论(0) 推荐(0) 编辑
摘要:对于刚接触scrapy的同学来说, crawlspider中的rule是比较难理解的, 很可能驾驭不住. 而且笔者在YouTube中看到许多公开的演讲都都错用了follow这一选项, 所以今天就来仔细谈一谈. 首先我们看scrapy中的follow是如何实现的: # 为了方便理解, 去除了不必要代码 阅读全文
posted @ 2018-05-15 10:10 公众号python学习开发 阅读(499) 评论(1) 推荐(0) 编辑
摘要:Option Explicit Dim objIE Set objIE = CreateObject("InternetExplorer.Application") objIE.Visible = True WScript.sleep(100) call asplogin(objIE, "用户名", "密码") Wscript.Quit '---------------------------... 阅读全文
posted @ 2018-05-15 09:16 公众号python学习开发 阅读(242) 评论(0) 推荐(0) 编辑
摘要:Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便。 Item提供了类字典的API,并且可以很方便的声明字段,很多Scrapy组件可以利用Item的其他信息。 定义Item 定义Item非常简单,只需要继承scrapy.I 阅读全文
posted @ 2018-05-14 09:29 公众号python学习开发 阅读(489) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = "Daniel Altiparmak (sixfinger78@gmail.com)" __copyright__ = "Copyright (C) 2015 Daniel Altiparmak" __license__ = "GPL 3.0" import asyncio... 阅读全文
posted @ 2018-05-11 17:01 公众号python学习开发 阅读(409) 评论(0) 推荐(0) 编辑
摘要:https://hubertroy.gitbooks.io/aiohttp-chinese-documentation/content/aiohttp%E6%96%87%E6%A1%A3/ClientUsage.html#%E4%BD%BF%E7%94%A8WebSockets 阅读全文
posted @ 2018-05-11 16:54 公众号python学习开发 阅读(177) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2018-05-11 13:22 公众号python学习开发 阅读(0) 评论(0) 推荐(0) 编辑
摘要:#其中authenticity_token的值,位于一个隐藏的input标签中,另外headers需要传入的信息不止要有ua,还有 阅读全文
posted @ 2018-05-11 10:00 公众号python学习开发 阅读(185) 评论(0) 推荐(0) 编辑
摘要:作者:申玉宝链接:https://www.zhihu.com/question/28168585/answer/74840535来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spi 阅读全文
posted @ 2018-05-10 17:04 公众号python学习开发 阅读(258) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 from urllib.parse import * #urlparse:解析url分段 #urlsplit:类似urlparse,不再单独解析params部分 #urlunsplit:后面必须1个列表,里面5个参数 #urljoin:字符串的拼接 #parse_qs:字符串参数转字典参数 #parse_qs... 阅读全文
posted @ 2018-05-10 13:37 公众号python学习开发 阅读(185) 评论(0) 推荐(0) 编辑
摘要:上面只是为了做一个 列表 元组转字典的练习,下面才是开始 阅读全文
posted @ 2018-05-10 09:01 公众号python学习开发 阅读(1082) 评论(0) 推荐(0) 编辑
摘要:1.文本存储 比如我们现在有10篇文章,每篇文章由三部分组成,题目,作者,内容(title,author,content),然后要求这三个部分明确展示出来,并且每篇文章之间用 分割。 大致思路: 针对每篇文章的三个部分,前两个部分归为一行,然后每篇文章之间用 分割。 代码实现 items表示那10篇 阅读全文
posted @ 2018-05-09 16:11 公众号python学习开发 阅读(775) 评论(0) 推荐(0) 编辑
摘要:super做了这些事 摘自:https://laike9m.com/blog/li-jie-python-super,70/ 阅读全文
posted @ 2018-05-09 13:16 公众号python学习开发 阅读(178) 评论(0) 推荐(0) 编辑
摘要:如果你没有被Python的super()惊愕过,那么要么是你不了解它的威力,要么就是你不知道如何高效地使用它。 有许多介绍super()的文章,这一篇与其它文章的不同之处在于: 提供了实例 阐述了它的工作模型 展示了任何场景都能使用它的手段 有关使用super()的类的具体建议 基于抽象ABCD钻石 阅读全文
posted @ 2018-05-09 13:11 公众号python学习开发 阅读(289) 评论(0) 推荐(0) 编辑
摘要:1.使用git add "login.py" 然后git commit -m "add url"的时候报错。分支newtype也是存在的 nothing to commit, working tree clean。 2.删除分支报错, Cannot delete branch 切换到其他分支之后 g 阅读全文
posted @ 2018-05-09 09:10 公众号python学习开发 阅读(160) 评论(0) 推荐(0) 编辑
摘要:內容簡介 學習如何運用Python與JavaScript這組對超級強大的組合,處理手中的原始資料,建構出功能強大的互動式視覺化網站。在這一本以實務為主的書中,將告訴您如何善用Python和JavaScript的強大函式庫資源,包括Scrapy、Matplotlib、Pandas、Flask與D3,打 阅读全文
posted @ 2018-05-09 08:08 公众号python学习开发 阅读(221) 评论(0) 推荐(0) 编辑
摘要:转载:http://www.freebuf.com/column/144897.html 脚本病毒是一个一直以来就存在,且长期活跃着的一种与PE病毒完全不同的一类病毒类型,其制作的门槛低、混淆加密方式的千变万化,容易传播、容易躲避检测,不为广大网民熟知等诸多特性,都深深吸引着各色各样的恶意软件制作者 阅读全文
posted @ 2018-05-08 11:33 公众号python学习开发 阅读(825) 评论(0) 推荐(0) 编辑
摘要:昨天,我们更多的讨论了request的基础API,让我们对它有了基础的认知。学会上一课程,我们已经能写点基本的爬虫了。但是还不够,因为,很多站点是需要登录的,在站点的各个请求之间,是需要保持回话状态的,有的站点还需要证书验证,等等这一系列的问题,我们将在今天这一环节,加以讨论。 1.会话对象 会话: 阅读全文
posted @ 2018-05-08 10:17 公众号python学习开发 阅读(3220) 评论(0) 推荐(1) 编辑
摘要:https://www.beibq.cn/book/xgwl906 阅读全文
posted @ 2018-05-08 10:15 公众号python学习开发 阅读(243) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 import grequests import requests import timeit import time def greq(): urls = [ 'http://www.heroku.com', 'http://python-tablib.org', ... 阅读全文
posted @ 2018-05-08 09:59 公众号python学习开发 阅读(637) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 import aiohttp import asyncio import traceback import time import random TEST_URL="http://www.baidu.com" CODE=[200] class TestAio(object): async def g... 阅读全文
posted @ 2018-05-08 09:08 公众号python学习开发 阅读(420) 评论(0) 推荐(0) 编辑
摘要:1.cmd命令,到redis的安装目录输入以下命令 安装命令: redis-server.exe --service-install redis.windows.conf --loglevel verbose 卸载命令: redis-server --service-uninstall redis- 阅读全文
posted @ 2018-05-07 22:46 公众号python学习开发 阅读(435) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 from proxyPool.db import RedisClient import asyncio import aiohttp import time try: from aiohttp import ClientError,client_exceptions except: from ai... 阅读全文
posted @ 2018-05-07 16:49 公众号python学习开发 阅读(770) 评论(0) 推荐(0) 编辑
摘要:Charles 是一个网络抓包工具,在做 APP 抓包的时候会用到,相比 Fiddler 来说,Charles 的功能更为强大,而且跨平台支持更好,所以在这里我们选用 Charles 来作为主要的移动端抓包工具,用于分析移动 APP 的数据包,辅助完成 APP 数据抓取工作。 1. 相关链接 官方网 阅读全文
posted @ 2018-05-06 21:30 公众号python学习开发 阅读(257) 评论(0) 推荐(0) 编辑
摘要:1.安装Twisted 直接pip install Twisted 然后报错 最后一句提醒让升级pip,然后运行 python -m pip install --upgrade pip 运行 这时候我们成功升级了pip了。然后重新 安装pip install twisted运行之后看到出现 如下错误 阅读全文
posted @ 2018-05-05 23:14 公众号python学习开发 阅读(6405) 评论(0) 推荐(0) 编辑