1、Question about web crawler

难：

1、cookie、JavaScript的关系？怎么产生的cookie？cookie包含哪些内容？JavaScript的功能在crawler代码中通过python的第三方库selenium，selenium用于执行JavaScript的脚本语言，那selenium是什么？运行脚本语言的脚本语言？PhantomJS（基于WebKit的服务端JavaScript API）？cookie来自服务器，理论上付呜呜会保存该用户登陆状态，客户端私自修改cookie，服务器没有与之修改cookie有映射怎么搞？这不是异常？

答：url：https://www.cnblogs.com/yinminbo/p/12014453.html

2、python库jQuery是基于JavaScript的第三方库，二、JavaScript是web客户端的脚本语言，难道jQuery是基于JavaScript语言编写的客户端的脚本语言的第三方库？python的第三方库和选择器的关系？（关系库是：find、findAll、find_element_by_id）Ajax技术是什么技术？jQuery如何帮助实现Ajax技术？

答：url：https://www.cnblogs.com/yinminbo/p/12020198.html

3、python第三方库requests库包含的类有哪些？==requests库的功能有哪些？requests库是实现这些功能独一无二的吗？如果不是，那requests库与其他库的优势和局限性？怎么将requests库根据自己的需求进行特性定制？

4、浏览器、web客户端、web服务器端的关系和组成？这三者之间的交互式怎么实现的？涉及Ajax技术、html格式文本（动态HTML和静态HTML的区别和关系是什么？）、使用了哪些数据结构来抽象对象，文件管理系统的算法逻辑是怎么样？webdriver是web服务器的组成部分还是浏览器的组成部分亦或者是web客户端？

# 5、web crawler涉及的网络方面的知识？#应该归为网络方面的question

5、web crawler会有哪些异常，如何处理这些异常？这些异常的产生于前面哪些疑问相关？网络、反crawler居多；而反crawler有涉及html、JavaScript、http等

6、伪随机数和随机数种子如何产生？梅森旋转算法？

7、网页表单的组成？web服务器如何根据web客户端提交的网页表单信息对用户进行区别对待（people还是robot）？如何将robot隐藏成people？如何特性定制网页表单？有哪些python第三方库可以实现功能？

8、API是什么？API和web三剑客的关系是如何（父子、朋友）？如何利用API？

# 9、并行网页抓取涉及的进程方面的那些知识？# 这部分的知识应该归为进程管理的question

10、拓展：自然语言处理、图像识别和文字处理、

易：

1、beautiful库的功能，beautiful库的三问？一问：对手；二问：优缺点；三问：如何特性定制

2、验证码的实现逻辑、如何通过验证的‘墙’

3、html的问题有哪些？

标签异常（缺失、未闭合、未正确嵌套）、

4、框架scrapy的组成和功能、深入理解各个部分的实现和web三个参与者的关系？分布型抓取还是单机运行？多线层还是单线程？多进程还是单进程？通信采取哪种？通讯方式‘三问’？使用的套路（例如：最后需要关闭close（））？

5、三种文档编码方式：ASCII、Unicode、ISO的认识和理解。这三者和CSV、PDF、docx文件的关系是什么？

6、web crawler失败的可能性有哪些？为什么会有着写可能性？哪种可能性更高？如何减小失败的可能性？

posted @ 2019-12-10 04:51 石斛阅读(209) 评论(0) 编辑收藏举报

刷新页面返回顶部

石斛

1、Question about web crawler

1、Question about web crawler

公告