随笔分类 - Program
摘要:#coding=utf-8 import re import time import json import requests from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By fro...
阅读全文
摘要:# -*- coding: utf-8 -*- import scrapy from rihan.items import RihanItem class RihanspiderSpider(scrapy.Spider): name = "rihanspider" # allowed_domains = ["*******"] start_urls = [******...
阅读全文
摘要:# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class XicispiderSpider(scrapy.Spider): name = "xicispider" allowed_domains = ["www.xicidaili.com/nn"]...
阅读全文
摘要:# -*- coding: utf-8 -*- # 分析动态网页请求爬取腾讯视频评论 import scrapy import re import json import time from tencent.items import TencentItem class TenspiderSpider(scrapy.Spider): name = "tenspider" # a...
阅读全文
摘要:1 #-*-coding:utf8-*- 2 3 import smtplib 4 from email.mime.text import MIMEText 5 import requests 6 from lxml import etree 7 import os 8 import time 9 import sys 10 reload(sys) 11...
阅读全文
摘要:# -*- coding: utf-8 -*- import scrapy from daomu.items import DaomuItem class DaomuspiderSpider(scrapy.Spider): name = "daomuspider" # allowed_domains = ["www.daomubiji.com"] start_urls ...
阅读全文
摘要:# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class DoubanspiderSpider(scrapy.Spider): name = "doubanspider" # allowed_domains = ["movie.do...
阅读全文
摘要:1 # requests+xpath+map爬取百度贴吧 2 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 3 # 分解: 4 # requests获取网页 5 # xpath提取内容 6 # map实现多线程爬虫 7 import requests 8 from requests.exceptions import RequestException 9 from lxml i...
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 # scrapy爬取极客学院全部课程 3 import scrapy 4 from pyquery import PyQuery as pq 5 from jike.items import JikeItem 6 7 class JikespiderSpider(scrapy.Spider): 8 name = "...
阅读全文
摘要:1 # -*- coding: utf-8 -*- 2 import scrapy 3 from pyquery import PyQuery as pq 4 5 from zolphone.items import ZolphoneItem 6 7 8 class PhoneSpider(scrapy.Spider): 9 name = "phone" 10 ...
阅读全文
摘要:# 爬虫主程序quotes.py # -*- coding: utf-8 -*- import scrapy from quotetutorial.items import QuoteItem # 启动爬虫 # 请求都是默认的,我们不需要管请求的操作,只要关心解析的过程就可以了 class QuotesSpider(scrapy.Spider): name = "quotes" ...
阅读全文
摘要:# 使用微信处理反爬抓取微信文章 # 一、引入模块 from pyquery import PyQuery as pq import requests from urllib.parse import urlencode import pymongo from config import * # 参数设置 headers = { 'Cookie':'IPLOC=CN3100; SUID...
阅读全文
摘要:1 # 目标:抓取今日头条关键字美图 2 # 思路: 3 # 一、分析目标站点 4 # 二、构造ajax请求,用requests请求到索引页的内容,正则+BeautifulSoup得到索引url 5 # 三、对索引url请求,得到图片url与标题,下载并保存到数据库,本次使用MongDB 6 # 四、开启循环与多进程,对多页内容遍历与抓取 7 8 #问题一、为什...
阅读全文
摘要:1 #requests+正则表达式提取猫眼电影top100 2 import requests 3 import re 4 import json 5 from requests.exceptions import RequestException 6 from multiprocessing import Pool 7 8 def get_one_page(url): 9 ...
阅读全文
摘要:1 #requests+正则爬取豆瓣图书 2 3 import requests 4 import re 5 6 def get_html(url): 7 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/4...
阅读全文
摘要:1 #请用户输入文件名并检测是否存在,存在就打开并编辑 2 import os 3 import os.path 4 filename = input('请输入您要编辑的文件:(需在D盘下):') 5 if os.path.exists('D://'+filename): 6 with open('D://'+filename,'a') as f: 7 wh...
阅读全文
摘要:1 import os 2 list1=os.lisdir('E//') 3 #方法一列表推导式 4 list2=[i for i in list1 if i.endswith('.jpg')] 5 #方法二for循环 6 list3=[] 7 for i in list1: 8 if i.endswith('.jpg'): 9 list3.append(i) ...
阅读全文
摘要:1 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容。提示(可以了解python的urllib模块) 2 import urllib.request 3 4 def get_page(url): 5 response = urllib.request.urlopen(url) 6 html = response.read() 7 ...
阅读全文
摘要:1 #定义一个方法get_num(num),num参数是列表类型,判断列表里面的元素为数字类型。其他类型则报错,并且返回一个偶数列表:(注:列表里面的元素为偶数)。 2 def get_num(num): 3 if type(num)!= list: 4 return '您传入的不是列表!' 5 else: 6 for i in num...
阅读全文
摘要:1 #定义一个方法func,该func可以引入任意多的字符串参数,结果返回(长度)最长的字符串。 2 def func2(*str): 3 4 for s in str: 5 if isinstance(s,int): 6 return '请保证全部是字符串' 7 for i in range(len(str)-1)...
阅读全文