scrapy技术进阶-URL路径依赖
方法1:
#!/usr/bin/python # -*- coding: gbk -*- import time from scrapy.spider import BaseSpider from scrapy.http import Request from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from slyy.items import SlyyItem class SlyySpider(BaseSpider): name = "slyy1" allowed_domains = ["txw1958.blog.163.com"] start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response): hxs = HtmlXPathSelector(response) items = [] h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract() h3_unicode = "".join(h3) t1 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/p/span[1]/span[1]/text()''').extract() items.append(SlyyItem(head=h3_unicode, url=response.url)) for url in hxs.select('''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract(): items.append(Request(url, callback=self.parse)) print "{'head': '''" + items[0]['head'] + "''','url': '" + items[0]['url'] + "'}" return items
方法2:
#!/usr/bin/python # -*- coding: gbk -*- import time from scrapy.spider import BaseSpider from scrapy.http import Request from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from slyy.items import SlyyItem class SlyySpider(BaseSpider): name = "slyy2" allowed_domains = ["txw1958.blog.163.com"] start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response): hxs = HtmlXPathSelector(response) h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract() h3_unicode = "".join(h3) yield SlyyItem(head=h3_unicode, url=response.url) for url in hxs.select('''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract(): yield Request(url, callback=self.parse)
方法3:
#!/usr/bin/python # -*- coding: gbk -*- import time from scrapy.spider import BaseSpider from scrapy.http import Request from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from slyy.items import SlyyItem class SlyySpider(BaseSpider): name = "slyy3" allowed_domains = ["txw1958.blog.163.com"] start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response): hxs = HtmlXPathSelector(response) items = [] firspost = hxs.select('''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0] items.extend([self.make_requests_from_url(firspost).replace(callback=self.parse_post)]) url2 = hxs.select('''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0] items.append(self.make_requests_from_url(url2)) return items def parse_post(self, response): hxs = HtmlXPathSelector(response) h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()[0] print h3 item = SlyyItem() item['url'] = response.url item['head'] = h3 return item
爬取结果:
{'head': '''《漫步遐想录》之五 Part1''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262492446552/'} {'head': '''《漫步遐想录》之五 Part2''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262491451433/'} {'head': '''Steve Jobs addresses on Standford''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262444735654/'} {'head': '''理想的光亮''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262443426261/'} {'head': '''实迷途其未远''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126244284851/'} {'head': '''自我解放 告别“衰世”''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126244213440/'} {'head': '''Engineering工程学''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126215190395/'} {'head': '''《南方周末》暑期文科综合自测题''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126206320645/'} {'head': '''我们选择的不是工作,是生活''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012619115011501/'} {'head': '''不想言败,大器晚成''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126150217780/'} {'head': '''降级论''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012696327615/'} {'head': '''归去来辞''','url': 'http://txw1958.blog.163.com/blog/static/188725046201252610216519/'} {'head': '''笑''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251722022775/'} {'head': '''滕王阁序''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251643457132/'} {'head': '''洛神赋''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251642150903/'} {'head': '''两都赋''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515115342959/'} {'head': '''司马相如 子虚赋 上林赋''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515113636367/'} {'head': '''声律启蒙''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103852784/'} {'head': '''论语 尧曰第二十''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103510294/'} {'head': '''论语 子张第十九''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103430915/'} {'head': '''论语 卫子第十八''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103356137/'} {'head': '''论语 阳货第十七''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103310473/'} {'head': '''论语 季氏第十六''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103154999/'} {'head': '''论语 卫灵公第十五''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103116471/'} {'head': '''论语 宪问第十四''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103044753/'} {'head': '''论语 子路第十三''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103010684/'} {'head': '''论语 颜渊第十二''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102814253/'} {'head': '''论语 先进第十一''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102614558/'} {'head': '''论语 乡党第十''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102541840/'} {'head': '''论语 子罕第九''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102458274/'} {'head': '''论语 泰伯第八''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102351448/'} {'head': '''论语 述而第七''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102256153/'} {'head': '''论语 雍也第六''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102225669/'} {'head': '''论语 公冶长第五''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510215473/'} {'head': '''论语 里仁第四''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510819332/'} {'head': '''论语 八佾第三''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510524323/'} {'head': '''论语 为政第二''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510356857/'} {'head': '''论语 学而第一''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251594136620/'} {'head': '''醉翁亭记''','url': 'http://txw1958.blog.163.com/blog/static/18872504620125152198737/'} {'head': '''与高司谏书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620125152117770/'} {'head': '''丁香花开的时候''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012511300679/'} {'head': '''与山巨源绝交书''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012561000783/'} {'head': '''高阳作品-胡雪岩系列''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012427102057474/'} {'head': '''昼信基督夜信佛''','url': 'http://txw1958.blog.163.com/blog/static/188725046201249144336/'} {'head': '''合理生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046201232603354998/'} {'head': '''报任少卿书''','url': 'http://txw1958.blog.163.com/blog/static/188725046201222975824567/'} {'head': '''那些让我们难堪的亲人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012227101543857/'} {'head': '''天边与身边''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012221113322802/'} {'head': '''汜水关温酒斩华雄''','url': 'http://txw1958.blog.163.com/blog/static/18872504620122116030954/'} {'head': '''在一个不伟大的行业里做一家伟大的公司''','url': 'http://txw1958.blog.163.com/blog/static/18872504620121239562451/'} {'head': '''最苦与最乐''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012123104147575/'} {'head': '''扎克伯格公开信''','url': 'http://txw1958.blog.163.com/blog/static/18872504620121353556729/'} {'head': '''与陌生人交流''','url': 'http://txw1958.blog.163.com/blog/static/188725046201111150300597/'} {'head': '''掉到井里的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046201111141593794/'} {'head': '''赵明诚致李清照书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111129449500/'} {'head': '''赠卫八处士''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111030527789/'} {'head': '''科学的宗教''','url': 'http://txw1958.blog.163.com/blog/static/18872504620119210394363/'} {'head': '''以色列国立国宣言''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191175380/'} {'head': '''Balfour Declaration''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191155657117/'} {'head': '''致舞神''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191122718899/'} {'head': '''实行的悲哀''','url': 'http://txw1958.blog.163.com/blog/static/188725046201171155133182/'} {'head': '''初冬浴日漫感''','url': 'http://txw1958.blog.163.com/blog/static/18872504620117961622855/'} {'head': '''最后一次演讲''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116281300287/'} {'head': '''橘子''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011628100594/'} {'head': '''蘭亭集序''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162543148949/'} {'head': '''The Declaration of Geneva''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162541918823/'} {'head': '''《自深深处》选读3''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162172642631/'} {'head': '''《自深深处》选读2''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116217219396/'} {'head': '''《自深深处》选读1''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116212324253/'} {'head': '''成功需要积累''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011618102449864/'} {'head': '''秋檐''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116132538465/'} {'head': '''给未来的自己''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011611483335/'} {'head': '''晁错论''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116902629774/'} {'head': '''黄州快哉亭记''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162115640458/'} {'head': '''We Are on a Journey''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152403433436/'} {'head': '''Beauty of July''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152402649114/'} {'head': '''看着你走远''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152201317148/'} {'head': '''金融行业与独立思考''','url': 'http://txw1958.blog.163.com/blog/static/18872504620115141012240/'} {'head': '''花园里的小山丘''','url': 'http://txw1958.blog.163.com/blog/static/18872504620115111035458/'} {'head': '''静虚村记''','url': 'http://txw1958.blog.163.com/blog/static/188725046201151105426272/'} {'head': '''Two Types of People''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142872910729/'} {'head': '''音的世界''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142531721621/'} {'head': '''认识的人,了解的事!''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011425102883/'} {'head': '''降低幸福沸点''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142595139513/'} {'head': '''秦国是怎样崛起的?''','url': 'http://txw1958.blog.163.com/blog/static/188725046201141010179210/'} {'head': '''黄生借书说''','url': 'http://txw1958.blog.163.com/blog/static/18872504620114515437349/'} {'head': '''沉默''','url': 'http://txw1958.blog.163.com/blog/static/188725046201132623618661/'} {'head': '''网络森林的寄居者''','url': 'http://txw1958.blog.163.com/blog/static/18872504620113175233830/'} {'head': '''未来10年中国的道路选择''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011384140181/'} {'head': '''春天''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011230112856859/'} {'head': '''Of Studie''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122923749618/'} {'head': '''限购令与深层经济结构失衡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122273946612/'} {'head': '''巷''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122202236607/'} {'head': '''为什么你们永远不说不?''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122115256782/'} {'head': '''Inaugural Address of Barack Obama''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111256412605/'} {'head': '''爱的信笺''','url': 'http://txw1958.blog.163.com/blog/static/18872504620110250394983/'} {'head': '''我们越来越懒于思考''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011015114249531/'} {'head': '''国立西南联合大学纪念碑碑文''','url': 'http://txw1958.blog.163.com/blog/static/188725046201011184649177/'} {'head': '''用“最简单”应对复杂''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010111223656176/'} {'head': '''The Fringe Benefits of Failure, and the Importance of Imagination''','url': 'http://txw1958.blog.163.com/blog/static/188725046201010191191318/'} {'head': '''母亲是游子的故乡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201010167590320/'} {'head': '''桨声灯影里的秦淮河''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092583638364/'} {'head': '''西湖的雪景''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092582940605/'} {'head': '''一个王朝的背影''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092561531241/'} {'head': '''途中''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092410632722/'} {'head': '''永远的灯光''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092375358375/'} {'head': '''When the Teacher Becomes the Student''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010915112637126/'} {'head': '''我的愿望''','url': 'http://txw1958.blog.163.com/blog/static/188725046201099115359953/'} {'head': '''无二的松子''','url': 'http://txw1958.blog.163.com/blog/static/188725046201096111632705/'} {'head': '''年轻的旅行者''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010826755588/'} {'head': '''你愿不愿意父母来看你''','url': 'http://txw1958.blog.163.com/blog/static/18872504620108267447239/'} {'head': '''价值的真谛''','url': 'http://txw1958.blog.163.com/blog/static/188725046201082672956838/'} {'head': '''这世界上有另一个你''','url': 'http://txw1958.blog.163.com/blog/static/188725046201082665458671/'} {'head': '''The careerist: Summer school''','url': 'http://txw1958.blog.163.com/blog/static/18872504620108102216529/'} {'head': '''如果客户向你要回扣……''','url': 'http://txw1958.blog.163.com/blog/static/188725046201071774741499/'} {'head': '''Understanding 802.11n wireless antennas''','url': 'http://txw1958.blog.163.com/blog/static/18872504620107531052795/'} {'head': '''被掠夺的梦想与生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046201061685545392/'} {'head': '''一个猜数游戏''','url': 'http://txw1958.blog.163.com/blog/static/188725046201061685351769/'} {'head': '''素书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620105240256875/'} {'head': '''Self-Contained Underwater Breathing Apparatus''','url': 'http://txw1958.blog.163.com/blog/static/18872504620104294124944/'} {'head': '''我奋斗了18年不是为了和你一起喝咖啡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201042471937771/'} {'head': '''我奋斗了18年才和你坐在一起喝咖啡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201042471745840/'} {'head': '''聆听''','url': 'http://txw1958.blog.163.com/blog/static/18872504620104783126926/'} {'head': '''美国总统奥巴马在矿难悼念仪式的讲话''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010429843863/'} {'head': '''致吾女''','url': 'http://txw1958.blog.163.com/blog/static/188725046201032994944149/'} {'head': '''落叶''','url': 'http://txw1958.blog.163.com/blog/static/188725046201032991950404/'} {'head': '''房子是囚人的''','url': 'http://txw1958.blog.163.com/blog/static/18872504620103204839426/'} {'head': '''关键四小时''','url': 'http://txw1958.blog.163.com/blog/static/188725046201031872831936/'} {'head': '''像流水一样生活''','url': 'http://txw1958.blog.163.com/blog/static/18872504620103383732865/'} {'head': '''我曾有梦''','url': 'http://txw1958.blog.163.com/blog/static/18872504620101784732546/'} {'head': '''《唯物论启示录》之一''','url': 'http://txw1958.blog.163.com/blog/static/188725046201017491452/'} {'head': '''过自己的生活''','url': 'http://txw1958.blog.163.com/blog/static/18872504620100221124895/'} {'head': '''是我摧垮了经济''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010022105658925/'} {'head': '''那个被你伤得最深的人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010022105524302/'} {'head': '''为徐敬业讨武瞾叫檄''','url': 'http://txw1958.blog.163.com/blog/static/18872504620100765246471/'} {'head': '''一口闲钟''','url': 'http://txw1958.blog.163.com/blog/static/188725046201006103313590/'} {'head': '''曹操《让县自明本志令》''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010063939689/'} {'head': '''再见!蜡笔小新''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091127284351/'} {'head': '''快乐只需两步''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009112512042484/'} {'head': '''《莺莺传》节选''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009111311511757/'} {'head': '''Father Forgets''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091111113751117/'} {'head': '''一个房奴的精神大字报''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091029104239475/'} {'head': '''我们每个人,都是某人一生的至爱''','url': 'http://txw1958.blog.163.com/blog/static/188725046200910299309875/'} {'head': '''幸福只和一件事有关''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101684230737/'} {'head': '''种树的牧羊人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101572433342/'} {'head': '''我们老去的青春''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101485352731/'} {'head': '''外婆家的月亮''','url': 'http://txw1958.blog.163.com/blog/static/188725046200993034548526/'} {'head': '''你的温柔给了谁''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009921101824929/'} {'head': '''小康胜大富''','url': 'http://txw1958.blog.163.com/blog/static/188725046200991004233804/'} {'head': '''成功的真谛''','url': 'http://txw1958.blog.163.com/blog/static/188725046200991003910682/'} {'head': '''记住,这是你的工作!''','url': 'http://txw1958.blog.163.com/blog/static/188725046200981692325363/'} {'head': '''迎迓绿色''','url': 'http://txw1958.blog.163.com/blog/static/188725046200981284336568/'} {'head': '''最不愿单独面对的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046200972072526871/'} {'head': '''What is a girl to focus on – looks or brains?''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009750200192/'} {'head': '''《刺杀肯尼迪》片尾演讲''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009610101932153/'} {'head': '''千字文''','url': 'http://txw1958.blog.163.com/blog/static/18872504620096675640123/'} {'head': '''百岁人生''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009656513294/'} {'head': '''人生的价值''','url': 'http://txw1958.blog.163.com/blog/static/18872504620096564358755/'} {'head': '''HEAL THE WORLD''','url': 'http://txw1958.blog.163.com/blog/static/188725046200952682113128/'} {'head': '''读“无用的书”''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009526647816/'} {'head': '''人这*西''','url': 'http://txw1958.blog.163.com/blog/static/188725046200951263421221/'} {'head': '''高贵的哑巴''','url': 'http://txw1958.blog.163.com/blog/static/188725046200951262421621/'} {'head': '''我曾经七次鄙视自己的灵魂''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009430551248/'} {'head': '''The life I desired''','url': 'http://txw1958.blog.163.com/blog/static/188725046200942603014348/'} {'head': '''昆明的雨''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094256487520/'} {'head': '''家''','url': 'http://txw1958.blog.163.com/blog/static/188725046200942064432393/'} {'head': '''爱是一条双行道''','url': 'http://txw1958.blog.163.com/blog/static/188725046200941892518738/'} {'head': '''淡定是一种生活状态''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094169114479/'} {'head': '''有一种错误叫放大痛苦''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094166214155/'} {'head': '''鲜花总是在远方''','url': 'http://txw1958.blog.163.com/blog/static/188725046200941364458767/'} {'head': '''Israel in a nutshell''','url': 'http://txw1958.blog.163.com/blog/static/188725046200932003127812/'} {'head': '''What is success?''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093158165263/'} {'head': '''落难的王子''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093821440143/'} {'head': '''What I Have Lived For''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009369314947/'} {'head': '''Relish the moment''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093692339938/'} {'head': '''让别人说话''','url': 'http://txw1958.blog.163.com/blog/static/188725046200923003315242/'} {'head': '''儿子教我“游戏”人生''','url': 'http://txw1958.blog.163.com/blog/static/18872504620092182349535/'} {'head': '''谁是最忠诚的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046200911881124613/'} {'head': '''抱怨比赛开始了……''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009115114418867/'} {'head': '''珍言''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091664937968/'} {'head': '''丰收的秘密''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091511328984/'} {'head': '''并非寓言''','url': 'http://txw1958.blog.163.com/blog/static/188725046200915104942870/'} {'head': '''所谓的选择''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091471219865/'} {'head': '''为什么不属于自己''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901393155430/'} {'head': '''总会轮到你''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392338805/'} {'head': '''老板娘给我的10个人生教益''','url': 'http://txw1958.blog.163.com/blog/static/18872504620090139239351/'} {'head': '''逆风的香''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392236284/'} {'head': '''最幸福的人不必问人生意义''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392156142/'} {'head': '''你离挨饿只有三天''','url': 'http://txw1958.blog.163.com/blog/static/18872504620090571313699/'} {'head': '''*-**:论持久战(一九三八年五月)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901111514924/'} {'head': '''怀才不遇''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008113072216857/'} {'head': '''“荒谬”的论文''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008111571612574/'} {'head': '''空瓶子''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811157154603/'} {'head': '''你在职场第几层''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811672254551/'} {'head': '''不要去看远处的*西''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008116048950/'} {'head': '''地上有餐巾''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810279554689/'} {'head': '''光''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810269913920/'} {'head': '''乐观就是一桶金''','url': 'http://txw1958.blog.163.com/blog/static/18872504620081024105024331/'} {'head': '''最苦与最乐''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810197250401/'} {'head': '''愿你有这样的人生情怀''','url': 'http://txw1958.blog.163.com/blog/static/18872504620089248516116/'} {'head': '''26岁开始要学会去面对的50件事''','url': 'http://txw1958.blog.163.com/blog/static/188725046200892165816632/'} {'head': '''草莓''','url': 'http://txw1958.blog.163.com/blog/static/18872504620089192193820/'} {'head': '''最珍贵的*西是免费的''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008825725571/'} {'head': '''摆渡自己''','url': 'http://txw1958.blog.163.com/blog/static/18872504620088196533259/'} {'head': '''人生的三层楼''','url': 'http://txw1958.blog.163.com/blog/static/188725046200881375327976/'} {'head': '''幸福是什么''','url': 'http://txw1958.blog.163.com/blog/static/188725046200881192236521/'} {'head': '''人生的解释''','url': 'http://txw1958.blog.163.com/blog/static/18872504620088981453997/'} {'head': '''活出意义来''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008887812418/'} {'head': '''每天诞生一次''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087299139706/'} {'head': '''没人蔑视你,只是忽略你''','url': 'http://txw1958.blog.163.com/blog/static/188725046200872610139641/'} {'head': '''实现梦想的常识''','url': 'http://txw1958.blog.163.com/blog/static/188725046200872211053815/'} {'head': '''破碎的美丽''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087131057430/'} {'head': '''你有没有最珍贵的?''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087603419605/'} {'head': '''二十分钟''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087511139907/'} {'head': '''生活需要等待''','url': 'http://txw1958.blog.163.com/blog/static/188725046200874111349524/'} {'head': '''幸福没有榜样''','url': 'http://txw1958.blog.163.com/blog/static/188725046200863195833216/'} {'head': '''生活的一种''','url': 'http://txw1958.blog.163.com/blog/static/188725046200863195413567/'} {'head': '''目标与人生''','url': 'http://txw1958.blog.163.com/blog/static/188725046200861865221832/'} {'head': '''小职员''','url': 'http://txw1958.blog.163.com/blog/static/188725046200861792821185/'} {'head': '''15条人生箴言''','url': 'http://txw1958.blog.163.com/blog/static/18872504620086972538957/'} {'head': '''人性暗箱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620086774530773/'} {'head': '''瓷器中的哲理''','url': 'http://txw1958.blog.163.com/blog/static/188725046200853085344605/'} {'head': '''世界的最后一夜''','url': 'http://txw1958.blog.163.com/blog/static/188725046200852510839412/'} {'head': '''成功是优秀的副产品''','url': 'http://txw1958.blog.163.com/blog/static/188725046200851542924474/'} {'head': '''灵魂的在场''','url': 'http://txw1958.blog.163.com/blog/static/188725046200851541830355/'} {'head': '''生死之间''','url': 'http://txw1958.blog.163.com/blog/static/18872504620085153593237/'} {'head': '''诅咒是一座牢房''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084299852363/'} {'head': '''人到何时最清醒''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842873142722/'} {'head': '''四十岁的心情''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842372527468/'} {'head': '''换个视角''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842074336487/'} {'head': '''13亿人的哀悼''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084198179228/'} {'head': '''亲爱的宝贝,如果你能活着,一定要记住我爱你''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008419880523/'} {'head': '''花钱的事''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084148843231/'} {'head': '''假如生活把你欺骗''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841282843151/'} {'head': '''为母亲祈祷''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841195812614/'} {'head': '''跨越百年的美丽''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841195141557/'} {'head': '''正确表达你的爱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084973830759/'} {'head': '''陋室王侯''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008489359394/'} {'head': '''沉默的大多数''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008457107348/'} {'head': '''一天之后,已成往事''','url': 'http://txw1958.blog.163.com/blog/static/18872504620083299402384/'} {'head': '''人生之不可管理''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832895119848/'} {'head': '''你最后悔什么?''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832611246367/'} {'head': '''无怨的青春''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832105949684/'} {'head': '''“路径依赖”原理''','url': 'http://txw1958.blog.163.com/blog/static/18872504620082287141465/'} {'head': '''热爱生命''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008212112631238/'} {'head': '''一个人都没有''','url': 'http://txw1958.blog.163.com/blog/static/188725046200812282614377/'} {'head': '''光和影的游戏''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008120942233/'} {'head': '''值得的生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811635251604/'} {'head': '''除了股票人生还有许多重要事情''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811634847472/'} {'head': '''爱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620078157223842/'} {'head': '''自我解放 告别“衰世” (三)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584925619/'} {'head': '''自我解放 告别“衰世” (二)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584851298/'} {'head': '''自我解放 告别“衰世” (一)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584754334/'} {'head': '''翠湖心影''','url': 'http://txw1958.blog.163.com/blog/static/18872504620077301651483/'} {'head': '''爱与孤独''','url': 'http://txw1958.blog.163.com/blog/static/1887250462007720337262/'} {'head': '''无用之用''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772003150/'} {'head': '''一只特立独行的猪''','url': 'http://txw1958.blog.163.com/blog/static/188725046200771115049618/'} {'head': '''小石潭记''','url': 'http://txw1958.blog.163.com/blog/static/18872504620076702313706/'} {'head': '''小重山''','url': 'http://txw1958.blog.163.com/blog/static/1887250462007133383614/'} {'head': '''云南雪''','url': 'http://txw1958.blog.163.com/blog/static/18872504620061122111947773/'} {'head': '''我与地坛''','url': 'http://txw1958.blog.163.com/blog/static/1887250462006112210598127/'}
待解决问题:
1. 保存到json中,仍然是unicode,无法为中文。
2. 从首页开始,得指
本文来自博客园,作者:方倍工作室,转载请注明原文链接:https://www.cnblogs.com/txw1958/archive/2012/07/25/scrapy-path-dependent.html