雕刻时光

just do it……nothing impossible
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 50 下一页

2014年5月5日

摘要: 既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class =cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。sel.xpath('//div[@... 阅读全文

posted @ 2014-05-05 16:36 huhuuu 阅读(1578) 评论(0) 推荐(0) 编辑

摘要: 之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候[u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而... 阅读全文

posted @ 2014-05-05 15:14 huhuuu 阅读(4182) 评论(0) 推荐(0) 编辑

2014年5月4日

摘要: scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档 几个比较重要的部分: items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的... 阅读全文

posted @ 2014-05-04 15:00 huhuuu 阅读(24314) 评论(0) 推荐(1) 编辑

2014年4月30日

摘要: Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/ 之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(p... 阅读全文

posted @ 2014-04-30 11:52 huhuuu 阅读(14806) 评论(0) 推荐(0) 编辑

2014年4月29日

摘要: My first Heading My first paragraph. 与 之间的文本描述网页 与 之间的文本是可见的页面内容 与 之间的文本被显示为标题 与 之间的文本被显示为段落第二个例子:My first Heading My second Heading My first para... 阅读全文

posted @ 2014-04-29 11:52 huhuuu 阅读(437) 评论(0) 推荐(0) 编辑

2014年4月25日

摘要: #coding=utf-8class data: def __init__(self): #构造函数 self.name='1234' def pp(self): print self.nameclass data2(data): #data2 继承 d... 阅读全文

posted @ 2014-04-25 21:04 huhuuu 阅读(289) 评论(0) 推荐(0) 编辑

摘要: #coding=utf-8import reimport urllibdef getHtml(url): #获取url对应得源码 page = urllib.urlopen(url) html = page.read() return htmldef getImg(html): #... 阅读全文

posted @ 2014-04-25 19:06 huhuuu 阅读(495) 评论(0) 推荐(0) 编辑

2014年3月9日

摘要: 在下有理解不到位,或是有更好的建议,欢迎批评指正! 相同点:关键段和互斥量都可以用来控制线程互斥访问资源。 不同点:关键段只能用于单进程间的多线程互斥,而互斥量可以用于多进程间的多线程互斥,而且互斥量可以处理“遗弃”(即某个个进程的某个线程占用了互斥量,但是它因为某些原因非正常关闭了,互斥量也没有释放,这是系统就是检测,处理这种情况,释放互斥量,以免其他线程一直等待下去)的问题。 按这样理解的话,在单个进程内使用关键段与互斥量应该可以达到类似的结果,真的是这样子吗? 个人用比较常见的生成者消费者模型稍作变型,成了4个生产者,4个消费者,4个临界区资源: 用信号量full,... 阅读全文

posted @ 2014-03-09 10:23 huhuuu 阅读(1919) 评论(1) 推荐(0) 编辑

2014年3月8日

摘要: 形象的理解:关键段与互斥量都有“线程所有权”概念,可以将“线程所有权”理解成旅馆的房卡,在旅馆前台登记名字拥有房卡后是可以多次进出房间的,其它人则无法进入直到你交出房卡。每个线程必须先通过EnterCriticalSection或WaitForSingleObject来尝试获得“线程所有权”才能调用LeaveCriticalSection或ReleaseMutex。否则会调用失败,这就相当于伪造房卡去办理退房手续——由于登记本上没有你的名字所以会被拒绝。互斥量能很好的处理“遗弃”情况,因此在多进程之间可以放心的使用。事件与信号量相当于管停车位的,信号量的大小相当于停车位容量多大,比如一共有5个 阅读全文

posted @ 2014-03-08 19:34 huhuuu 阅读(2474) 评论(0) 推荐(0) 编辑

摘要: 以一个停车场的运作为例。简单起见,假设停车场只有三个车位,一开始三个车位都是空的。这时如果同时来了五辆车,看门人允许其中三辆直接进入,然后放下车拦,剩下的车则必须在入口等待,此后来的车也都不得不在入口处等待。这时,有一辆车离开停车场,看门人得知后,打开车拦,放入外面的一辆进去,如果又离开两辆,则又可以放入两辆,如此往复。在这个停车场系统中,车位是公共资源,每辆车好比一个线程,看门人起的就是信号量的作用。抽象的来讲,信号量的特性如下:信号量是一个非负整数(车位数),所有通过它的线程/进程(车辆)都会将该整数减一(通过它当然是为了使用资源),当该整数值为零时,所有试图通过它的线程都将处于等待状.. 阅读全文

posted @ 2014-03-08 15:59 huhuuu 阅读(5285) 评论(0) 推荐(1) 编辑

上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 50 下一页