五杀摇滚小拉夫

公告

2018年12月2日

摘要： MySQL默认端口 3306 Redis默认端口 6379 MongoDB默认端口 27017 django端口 8000 flask端口 5000 pyspider服务端口 5000（由flask开发） gerapy服务端口 8000（由django开发） scrapyd服务端口 6800 ipython notebook 默认端口 8888 HTTP默认端口 80 HTTPS服务默认端口44... 阅读全文

posted @ 2018-12-02 09:45 五杀摇滚小拉夫阅读(419) 评论(0) 推荐(0)

10.聚焦爬虫和通用爬虫的区别

摘要： 1.通用爬虫：搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。　通用爬虫要遵循规则：Robots协议通用爬虫工作流程：爬取网页》存储数据》内容处理》提供检索通用爬虫缺点：只能提供和文本相关的内容如html、world、pdf等，不能提供多媒体文件如音乐、图片、视频和二进制文件（脚本、程序）提供的结果千篇一律，针对不同领域提供不同内容不能提供人类语义上的检索通用爬虫局... 阅读全文

posted @ 2018-12-02 09:40 五杀摇滚小拉夫阅读(2326) 评论(0) 推荐(0)

18.Mysql搜索引擎及其区别

摘要：这是面试中的问题：当时也是没有直接回答出来，还是因为基础知识不扎实。一般Mysql常用的搜索引擎有：ISAM、MylSAM、HEAP、InnoDB、Berkley(BDB)ISAM：执行读取操作的速度很快，而且不占用大量的内存和存储资源。不足之处是：不支持事务，不支持外键，也不能过容错。MylSAM：在ISAM基础上，提供了ISAM所没有的索引和字段管理的大量功能，还使用了一种表格锁定机制... 阅读全文

posted @ 2018-12-02 09:19 五杀摇滚小拉夫阅读(1345) 评论(0) 推荐(0)

2018年11月21日

25.爬取去哪儿网的商品数据-2

摘要：正常如下：阅读全文

posted @ 2018-11-21 12:38 五杀摇滚小拉夫阅读(157) 评论(0) 推荐(0)

2018年11月20日

25.爬取去哪儿网的商品数据-1

摘要： request.url : https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&dep=%E5%B9%BF%E5%B7%9E&query=%E5%8E%A6%E9%97%A8%E8%87%AA% 阅读全文

posted @ 2018-11-20 18:14 五杀摇滚小拉夫阅读(430) 评论(0) 推荐(0)

24.API爬天气预报数据

摘要：认证key是访问api的钥匙可以看到免费的用户只能访问一个服务器节点：执行效果如下：代码报错：是由于网站把这个借口给关闭了，已经无法使用，但调用api接口的方式大概就是这样。模拟获取请求参数拼接请求url去获取数据，其实就和使用代理ip差不多。阅读全文

posted @ 2018-11-20 14:55 五杀摇滚小拉夫阅读(340) 评论(0) 推荐(0)

2018年11月16日

45.更新一下scrapy爬取工商信息爬虫代码

摘要：这里是完整的工商信息采集代码，不过此程序需要配合代理ip软件使用。问题：1.网站对ip之前没做限制，但是采集了一段时间就被检测到设置了反爬，每个ip只能访问十多次左右就被限制访问。2.网站对请求头的检测识别解决：1.配合代理ip软件（风讯代理）设置自动切换ip时间，执行爬虫程序。2.中间件设置随机user-agent采集结果：正常采集速度一天大概采集1万条数据左右。问题：切换ip会造成程序断网一... 阅读全文

posted @ 2018-11-16 17:50 五杀摇滚小拉夫阅读(4179) 评论(1) 推荐(0)

1.理解Numpy、pandas

摘要：简单测试：阅读全文

posted @ 2018-11-16 16:12 五杀摇滚小拉夫阅读(480) 评论(0) 推荐(0)

2018年11月12日

44.scrapy爬取链家网站二手房信息-2

摘要： {'downloader/exception_count': 199, 'downloader/exception_type_count/twisted.internet.error.NoRouteError': 192, 'downloader/exception_type_count/twist 阅读全文

posted @ 2018-11-12 18:21 五杀摇滚小拉夫阅读(475) 评论(0) 推荐(0)

43.scrapy爬取链家网站二手房信息-1

摘要：首先分析：目的：采集链家网站二手房数据1.先分析一下二手房主界面信息，显示情况如下：url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套，但是页面只给返回100页的数据，每页30条数据，也就是只给返回3000条数据。 2.再看一下筛选条件的情况：100万以下（775）：https://gz.lianjia.com/ershouf... 阅读全文

posted @ 2018-11-12 11:45 五杀摇滚小拉夫阅读(423) 评论(0) 推荐(0)