Program - 随笔分类 - 道高一尺

selenium+chromedriver刷点击量

摘要：#coding=utf-8 import re import time import json import requests from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By fro... 阅读全文

posted @ 2018-09-05 10:14 道高一尺阅读(531) 评论(0) 推荐(0)

scrapy批量下载图片

摘要：# -*- coding: utf-8 -*- import scrapy from rihan.items import RihanItem class RihanspiderSpider(scrapy.Spider): name = "rihanspider" # allowed_domains = ["*******"] start_urls = [******... 阅读全文

posted @ 2017-07-04 08:40 道高一尺阅读(1327) 评论(0) 推荐(0)

scrapy爬取西刺网站ip

摘要：# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class XicispiderSpider(scrapy.Spider): name = "xicispider" allowed_domains = ["www.xicidaili.com/nn"]... 阅读全文

posted @ 2017-07-03 11:43 道高一尺阅读(1106) 评论(0) 推荐(0)

分析动态网页请求爬取腾讯视频评论

摘要：# -*- coding: utf-8 -*- # 分析动态网页请求爬取腾讯视频评论 import scrapy import re import json import time from tencent.items import TencentItem class TenspiderSpider(scrapy.Spider): name = "tenspider" # a... 阅读全文

posted @ 2017-07-01 15:30 道高一尺阅读(739) 评论(0) 推荐(0)

追女神助手v0.1

摘要：1 #-*-coding:utf8-*- 2 3 import smtplib 4 from email.mime.text import MIMEText 5 import requests 6 from lxml import etree 7 import os 8 import time 9 import sys 10 reload(sys) 11... 阅读全文

posted @ 2017-07-01 10:56 道高一尺阅读(317) 评论(0) 推荐(0)

scrapy爬取小说盗墓笔记

摘要：# -*- coding: utf-8 -*- import scrapy from daomu.items import DaomuItem class DaomuspiderSpider(scrapy.Spider): name = "daomuspider" # allowed_domains = ["www.daomubiji.com"] start_urls ... 阅读全文

posted @ 2017-06-29 10:26 道高一尺阅读(395) 评论(0) 推荐(0)

scrapy爬取豆瓣电影top250

摘要：# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class DoubanspiderSpider(scrapy.Spider): name = "doubanspider" # allowed_domains = ["movie.do... 阅读全文

posted @ 2017-06-28 16:13 道高一尺阅读(1116) 评论(0) 推荐(0)

requests+xpath+map爬取百度贴吧

摘要：1 # requests+xpath+map爬取百度贴吧 2 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 3 # 分解: 4 # requests获取网页 5 # xpath提取内容 6 # map实现多线程爬虫 7 import requests 8 from requests.exceptions import RequestException 9 from lxml i... 阅读全文

posted @ 2017-06-26 17:53 道高一尺阅读(812) 评论(0) 推荐(0)

scrapy爬取极客学院全部课程

摘要：1 # -*- coding: utf-8 -*- 2 # scrapy爬取极客学院全部课程 3 import scrapy 4 from pyquery import PyQuery as pq 5 from jike.items import JikeItem 6 7 class JikespiderSpider(scrapy.Spider): 8 name = "... 阅读全文

posted @ 2017-06-25 18:12 道高一尺阅读(586) 评论(0) 推荐(0)

scrapy爬取中关村在线手机频道

摘要：1 # -*- coding: utf-8 -*- 2 import scrapy 3 from pyquery import PyQuery as pq 4 5 from zolphone.items import ZolphoneItem 6 7 8 class PhoneSpider(scrapy.Spider): 9 name = "phone" 10 ... 阅读全文

posted @ 2017-06-24 08:24 道高一尺阅读(748) 评论(0) 推荐(0)

Scrapy抓取Quotes to Scrape

摘要：# 爬虫主程序quotes.py # -*- coding: utf-8 -*- import scrapy from quotetutorial.items import QuoteItem # 启动爬虫 # 请求都是默认的，我们不需要管请求的操作，只要关心解析的过程就可以了 class QuotesSpider(scrapy.Spider): name = "quotes" ... 阅读全文

posted @ 2017-06-12 17:59 道高一尺阅读(1636) 评论(0) 推荐(0)

使用代理处理反爬抓取微信文章

摘要：# 使用微信处理反爬抓取微信文章 # 一、引入模块 from pyquery import PyQuery as pq import requests from urllib.parse import urlencode import pymongo from config import * # 参数设置 headers = { 'Cookie':'IPLOC=CN3100; SUID... 阅读全文

posted @ 2017-06-06 09:47 道高一尺阅读(2554) 评论(1) 推荐(0)

分析ajax请求抓取今日头条关键字美图

摘要：1 # 目标：抓取今日头条关键字美图 2 # 思路： 3 # 一、分析目标站点 4 # 二、构造ajax请求，用requests请求到索引页的内容，正则+BeautifulSoup得到索引url 5 # 三、对索引url请求，得到图片url与标题，下载并保存到数据库，本次使用MongDB 6 # 四、开启循环与多进程，对多页内容遍历与抓取 7 8 #问题一、为什... 阅读全文

posted @ 2017-05-23 15:45 道高一尺阅读(1377) 评论(0) 推荐(0)

requests+正则表达式提取猫眼电影top100

摘要：1 #requests+正则表达式提取猫眼电影top100 2 import requests 3 import re 4 import json 5 from requests.exceptions import RequestException 6 from multiprocessing import Pool 7 8 def get_one_page(url): 9 ... 阅读全文

posted @ 2017-05-20 22:00 道高一尺阅读(609) 评论(0) 推荐(0)

requests+正则爬取豆瓣图书

摘要：1 #requests+正则爬取豆瓣图书 2 3 import requests 4 import re 5 6 def get_html(url): 7 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4... 阅读全文

posted @ 2017-05-14 10:12 道高一尺阅读(444) 评论(0) 推荐(0)

请用户输入文件名并检测是否存在，存在就打开并编辑

摘要：1 #请用户输入文件名并检测是否存在，存在就打开并编辑 2 import os 3 import os.path 4 filename = input('请输入您要编辑的文件：(需在D盘下):') 5 if os.path.exists('D://'+filename): 6 with open('D://'+filename,'a') as f: 7 wh... 阅读全文

posted @ 2017-05-03 16:39 道高一尺阅读(302) 评论(0) 推荐(0)

找出一个文件夹下后缀名为.jpg的文件

摘要：1 import os 2 list1=os.lisdir('E//') 3 #方法一列表推导式 4 list2=[i for i in list1 if i.endswith('.jpg')] 5 #方法二for循环 6 list3=[] 7 for i in list1: 8 if i.endswith('.jpg'): 9 list3.append(i) ... 阅读全文

posted @ 2017-05-03 09:11 道高一尺阅读(434) 评论(0) 推荐(0)

定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）

摘要：1 定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块） 2 import urllib.request 3 4 def get_page(url): 5 response = urllib.request.urlopen(url) 6 html = response.read() 7 ... 阅读全文

posted @ 2017-05-02 21:50 道高一尺阅读(4238) 评论(0) 推荐(0)

#定义一个方法get_num(num),num参数是列表类型，判断列表里面的元素为数字类型。其他类型则报错，并且返回一个偶数列表：（注：列表里面的元素为偶数）。

摘要：1 #定义一个方法get_num(num),num参数是列表类型，判断列表里面的元素为数字类型。其他类型则报错，并且返回一个偶数列表：（注：列表里面的元素为偶数）。 2 def get_num(num): 3 if type(num)!= list: 4 return '您传入的不是列表！' 5 else: 6 for i in num... 阅读全文

posted @ 2017-05-02 20:12 道高一尺阅读(1297) 评论(0) 推荐(0)

任意字符串参数返回最长的

摘要：1 #定义一个方法func，该func可以引入任意多的字符串参数，结果返回（长度）最长的字符串。 2 def func2(*str): 3 4 for s in str: 5 if isinstance(s,int): 6 return '请保证全部是字符串' 7 for i in range(len(str)-1)... 阅读全文

posted @ 2017-05-02 18:59 道高一尺阅读(415) 评论(0) 推荐(0)

道高一尺

随笔分类 - Program

公告