摘要: 爬虫原理: 每个网页页面返回到客户端的都是 html,你需要的内容就在这html里面,这个html你可以用一个字符串去保存到java变量里,你要做的工作就是截取字符串相应位置的内容并保存起来,你给的这个网站每个商品的网页有个特殊的地方 爬虫分为两类: 聚集爬虫: 聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 通用爬虫: 网络爬虫的组成 在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制器的主要工作.. 阅读全文
posted @ 2012-05-07 20:23 这里显示的是昵称 阅读(3947) 评论(0) 推荐(0) 编辑
摘要: 我也尝试一下百度2012校园招聘部分试题,想探讨最佳解决方法,不断学习。以下的软件研发职位的部分笔试试题!<希望看过的路人都能留下自己的想法,探讨进步。。。>简答题:1、给一个单词a,如果通过交换单词中字母的顺序可以得到另外的单词b,那么b是a的兄弟单词,比如的单词army和mary互为兄弟单词。现在要给出一种解决方案,对于用户输入的单词,根据给定的字典找出输入单词有哪些兄弟单词。请具体说明数据结构和查询流程,要求时间和空间效率尽可能地高。2、C和C++中如何动态分配和释放内存?他们的区别是什么?3、线程和进程的区别及联系?如何理解“线程安全”问题?算法设计题目:1、网页爬虫在抓取 阅读全文
posted @ 2012-05-07 17:20 这里显示的是昵称 阅读(1027) 评论(2) 推荐(3) 编辑
新浪微博