随笔分类 -  Python

Xpath语法学习
摘要:XPath是一门在XML文档中查找信息的语言,被用于在XML文档中通过元素和属性进行导航。XPath虽然是被设计用来搜寻XML文档,不过它也能很好地在HTML文档中工作,并且大部分浏览器也支持通过XPath来查询节点。在Python爬虫开发中,经常使用XPath查找提取网页中的信息,因此XPath非 阅读全文

posted @ 2018-03-19 14:14 K‘e0llm 阅读(314) 评论(0) 推荐(0) 编辑

Selenium+PhantomJS实现简易有道翻译爬虫
摘要:Selenium一款自动化测试工具,当然用来写爬虫也是没有问题的。它支持Chrome、Safari、Firefox等主流界面式浏览器,另外它也支持多种语言开发,比如 Java,C,Ruby,Python等。PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎,当我们爬一些网站,页面全 阅读全文

posted @ 2018-02-20 16:50 K‘e0llm 阅读(599) 评论(0) 推荐(0) 编辑

Scrapy框架实战-妹子图爬虫
摘要:Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难。即便是在一些小型的项目上,用scrapy甚至比用requests、urllib、urllib2更方便,简单,效率也更高。废话不多说,下面详细介绍下如何用scrapy将妹子图爬下来,存储在你的硬盘之中。关于Python、Scrapy的 阅读全文

posted @ 2018-02-19 16:32 K‘e0llm 阅读(1922) 评论(1) 推荐(0) 编辑

拉勾网职位信息爬取
摘要:学习python网络爬虫有一段时间了,正好赶上休假闲来无事,记录一下爬取的过程。 一、开发工具Pycharm 2017Python 2.7.10requestspymongo 二、爬取目标1、爬取与python相关的职位信息2、由于拉勾网只展示30页的搜索结果,每页15条职位信息,全部爬下来,最终将 阅读全文

posted @ 2018-02-13 12:23 K‘e0llm 阅读(557) 评论(2) 推荐(0) 编辑

tomcat错误日志监控脚本
摘要:监控邮件: 阅读全文

posted @ 2017-04-27 19:23 K‘e0llm 阅读(884) 评论(0) 推荐(0) 编辑

利用python分析nginx日志
摘要:最近在学习python,写了个脚本分析nginx日志,练练手。写得比较粗糙,但基本功能可以实现。脚本功能:查找出当天访问次数前十位的IP,并获取该IP来源,并将分析结果发送邮件到指定邮箱。实现前两项功能的脚本内容如下:#!/usr/bin/env python# coding:utf-8# date... 阅读全文

posted @ 2015-12-10 17:38 K‘e0llm 阅读(1232) 评论(0) 推荐(0) 编辑

查找IP来源
摘要:通过调用淘宝IP库获取IP归属地,脚本如下:#!/usr/bin/env python# -*- coding: utf-8 -*-import urllibimport jsonimport sys#淘宝ip库接口url = "http://ip.taobao.com/service/getIpI... 阅读全文

posted @ 2015-12-10 17:21 K‘e0llm 阅读(409) 评论(0) 推荐(0) 编辑

清除nginx静态资源缓存
摘要:之前写过一篇如何配置nginx缓存及手动清除缓存的文章:http://www.cnblogs.com/Eivll0m/p/4921829.html但如果有大量缓存需要清理,手动一条条清理就比较慢了,所以写了个小脚本进行清理,脚本如下:#!/usr/bin/env python# -*- coding... 阅读全文

posted @ 2015-12-10 17:12 K‘e0llm 阅读(4497) 评论(0) 推荐(0) 编辑

ftp上传下载脚本
摘要:#!/usr/bin/env python#encoding=utf-8# @Date: 2015-08-10import datetimefrom ftplib import FTP""" 脚本功能:1、上传/app/sinova/testlog/下的文件名为*%Y%m%d%H*的前一小时日志文件... 阅读全文

posted @ 2015-08-10 13:47 K‘e0llm 阅读(451) 评论(0) 推荐(0) 编辑

导航