摘要:
1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。 通用爬虫要遵循规则:Robots协议 通用爬虫工作流程: 爬取网页》存储数据》内容处理》提供检索 通用爬虫缺点: 只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序) 提供的结果千篇一律,针对不同领域提供不同内容 不能提供人类语义上的检索 通用爬虫局... 阅读全文
摘要:
1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。 通用爬虫要遵循规则:Robots协议 通用爬虫工作流程: 爬取网页》存储数据》内容处理》提供检索 通用爬虫缺点: 只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序) 提供的结果千篇一律,针对不同领域提供不同内容 不能提供人类语义上的检索 通用爬虫局... 阅读全文
摘要:
这是面试中的问题:当时也是没有直接回答出来,还是因为基础知识不扎实。一般Mysql常用的搜索引擎有:ISAM、MylSAM、HEAP、InnoDB、Berkley(BDB)ISAM:执行读取操作的速度很快,而且不占用大量的内存和存储资源。 不足之处是:不支持事务,不支持外键,也不能过容错。MylSAM:在ISAM基础上,提供了ISAM所没有的索引和字段管理的大量功能,还使用了一种表格锁定机制... 阅读全文
摘要:
request.url : https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&dep=%E5%B9%BF%E5%B7%9E&query=%E5%8E%A6%E9%97%A8%E8%87%AA% 阅读全文
摘要:
认证key是访问api的钥匙 可以看到免费的用户只能访问一个服务器节点: 执行效果如下: 代码报错: 是由于网站把这个借口给关闭了,已经无法使用,但调用api接口的方式大概就是这样。 模拟获取请求参数拼接请求url去获取数据,其实就和使用代理ip差不多。 阅读全文
摘要:
这里是完整的工商信息采集代码,不过此程序需要配合代理ip软件使用。问题:1.网站对ip之前没做限制,但是采集了一段时间就被检测到设置了反爬,每个ip只能访问十多次左右就被限制访问。2.网站对请求头的检测识别解决:1.配合代理ip软件(风讯代理)设置自动切换ip时间,执行爬虫程序。2.中间件设置随机user-agent采集结果:正常采集速度一天大概采集1万条数据左右。问题:切换ip会造成程序断网一... 阅读全文
摘要:
{'downloader/exception_count': 199, 'downloader/exception_type_count/twisted.internet.error.NoRouteError': 192, 'downloader/exception_type_count/twist 阅读全文
摘要:
首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下:url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据。 2.再看一下筛选条件的情况:100万以下(775):https://gz.lianjia.com/ershouf... 阅读全文
摘要:
这里就能抓取到相应的数据包,就可以分析里面的数据信息。 阅读全文
|