2012 年 5月 7 日随笔档案 - 这里显示的是昵称

2012年5月7日

摘要：爬虫原理：每个网页页面返回到客户端的都是 html，你需要的内容就在这html里面，这个html你可以用一个字符串去保存到java变量里，你要做的工作就是截取字符串相应位置的内容并保存起来，你给的这个网站每个商品的网页有个特殊的地方爬虫分为两类：聚集爬虫：聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。通用爬虫：网络爬虫的组成在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作.. 阅读全文

posted @ 2012-05-07 20:23 这里显示的是昵称阅读(3947) 评论(0) 推荐(0) 编辑

百度校园招聘---（部分）

摘要：我也尝试一下百度2012校园招聘部分试题，想探讨最佳解决方法，不断学习。以下的软件研发职位的部分笔试试题！<希望看过的路人都能留下自己的想法，探讨进步。。。>简答题：1、给一个单词a，如果通过交换单词中字母的顺序可以得到另外的单词b，那么b是a的兄弟单词，比如的单词army和mary互为兄弟单词。现在要给出一种解决方案，对于用户输入的单词，根据给定的字典找出输入单词有哪些兄弟单词。请具体说明数据结构和查询流程，要求时间和空间效率尽可能地高。2、C和C++中如何动态分配和释放内存？他们的区别是什么？3、线程和进程的区别及联系？如何理解“线程安全”问题？算法设计题目：1、网页爬虫在抓取阅读全文

posted @ 2012-05-07 17:20 这里显示的是昵称阅读(1027) 评论(2) 推荐(3) 编辑

Aaron

子非鱼，焉知鱼之乐。

公告