摘要:
1.re模块(正则表达式操作) re模块是文件处理中必不可少的模块,它主要用于字符串的查找,定位等等,在使用网络爬虫时,即使没有爬虫框架,re模块配合urllib2模块也可以完成简单的爬虫功能 2.正则表达式: (1)字符: ** .:匹配任意除换行符\n之外的字符,abc匹配abc **\:转义字 阅读全文
摘要:
1.创建项目:前提是在环境变量中添加了: 可以运行命令scrapy: (1).scrapy startproject todayMovie (2).scrapy genspider wuHanMovieSpider jycinema.com(搜索域) 创建scrapy项目后的文件目录结构是: 2.S 阅读全文