摘要:
@echo off set input="list.txt" set srcDir="%1" set /a fileCount=10 set /a curIndex=0 set line= setlocal enabledelayedexpansion :: 创建一个空的文件 echo. 2> %input% for /f %%f in ('dir %srcDir%\*.jpg ... 阅读全文
摘要:
这篇文章主要介绍创建一个简单的spider,顺便介绍一下对网页元素的选取方式(css selector, xpath selector)。 第一步:创建spider工程 打开命令行运行以下命令: 创建出的工程结构如下: 第二步:定义spider(homelink_selling_index) 需要抓 阅读全文
摘要:
本篇文章主要介绍C#对Json数据的读取。 主要操作过程是: 下面我们以12306火车票余票的数据为例进行切入。 首先来看一下http请求和获取到Json数据的格式: Host: kyfw.12306.cn Connection: keep-alive Cache-Control: no-cache 阅读全文
摘要:
安装Scrapy的时候如果期望pip install scrapy可以直接成功那可就有点小天真了... 这里总结了一下Windows和Linux上安装Scrapy时遇到的问题以及解决方法,供以后参考。Build lxml的时候出错,提示libxml2没有安装。 Windows: 可以到http:// 阅读全文
摘要:
序 最近在学习Scrapy的时候发现一个很有意思的网站,可以托管Spider,也可以设置定时抓取的任务,相当方便。于是研究了一下,把其中比较有意思的功能分享一下: 抓取图片并显示在item里: 下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片: 1. 创建一个scrapy projec 阅读全文
摘要:
PyQuery基本操作介绍 初始化pyquery 可以通过PyQuery的text()方法来获取其对应的文字 糯米 更多产品 hao123 也可以通过PyQuery的attr()方法来获取元素的属性 tj_trnuomi 下面来遍历所有导航按钮。 P.S. 注意此时link的类型是“lxml.htm 阅读全文
摘要:
JuPyter(IPython) Notebooks中使用pip安装Python的模块 刚开始接触JuPyter Notebook的时候觉得这是个不错的写技术博客的工具,可以很直观的把代码和结果结合在一起。于是想着趁热打铁,把前段时间学习PyQuery的经验总结一下分享出来。可是IPython里默认 阅读全文
摘要:
以下代码主要演示使用pyquery进行对html文件的解析,包括设定编码,对子块进行查询等操作:from pyquery import PyQuery as pqimport osfrom lxml.html import HTMLParser, fromstringdef getHouseInfo... 阅读全文
摘要:
最近电脑边的特别慢,打开任务管理器发现是磁盘活动时间时不时的就会变成100%。起初是以为硬盘出问题了,后来网上查了一下才发现很多人都遇到过这个问题,其原因就是Windows的SuperFetch和家庭组服务。解决方案就是关闭这两个服务。以下是具体方法:关闭SuperFetch:运行“Win + R”... 阅读全文
摘要:
在Ubuntu上用Django做Web开发的时候遇到了中文保存到Cookie无法解析的问题,经过了下面几个步骤终于把问题解决了:修改/usr/lib/python3.4/wsgiref/headers.py文件,强制使用UTF-8编码对存入Cookie的值进行编码,将字符串转换成字节数组在页面加载的... 阅读全文