摘要:
阅读全文
摘要:
经过多次认真的讨论研究,我们认为我们的技术难点在于爬虫的多线程技术。一、使用多线程的原因 多线程是一种机制,它允许在程序中并发执行多个指令流,每个指令流都称为一个线程,彼此间互相独立。多个线程的执行是并发的,即在逻辑上是“同时”的。而我们做的爬虫需要爬取多个网页,如果单一的用单线程,效率十分低下。为了提升爬虫的性能,需要采用多线程的爬虫技术。而且很多大型网站都采用多个服务器镜像的方式提供同样的网页内容。采用多线程并行抓取能同时获取同一个网站的多个服务器中的网页,这样能极大地减少抓取这类网站的时间。二、难点何在 由于多线程的线程是并发的,逻辑上控制很难。尤其是同步和死锁的问题。并且对于并行爬.. 阅读全文