摘要:
由于工作需要,需要在内网部署一个Django项目生成exe,打包过程遇到了不少坑,在此记录一下。 一、安装pyinstaller 略。 二、打包exe 第一个问题:用pyinstaller -F -w生成的exe报错 一开始用的是以下命令生成exe: pyinstaller -F -w xx.py 阅读全文
摘要:
研一选修课选了机器学习,期末作业是参加泰迪杯,晕了~本着不能亏报名费的心态,和组内的同学组了队,认真肝了几天论文,幸运的拿到了网速创新奖,把参赛费赚回来了,好耶!任务分配上,我负责代码实现和技术部分论文,队友负责论文其他部分及ppt,下面就直接进入正题辣~(其实都是复制黏贴论文里的) 首先是第一问, 阅读全文
摘要:
之所以做这个东西是因为在NGA上看到了张桂梅校长相关的讨论,有些网友以“张校长用国家的钱建女校,是否有违性别公平“”身边读过书的女孩子数量远多于男孩子“等理由抨击张校长,本着没有调查就没有发言权的原则,我爬取了2010年(为什么不选2020年的原因是想调查更早之前云南省的情况),并做了些数据可视化。 阅读全文
摘要:
决策树 参考资料:Andrew W. Moore Professor School of Computer Science Carnegie Mellon University Decision Trees 决策树 一、 机器学习数据集 二、 分类/回归 三、 信息熵 四、 列联表 五、 信息增溢 阅读全文
摘要:
本文的代理由http://www.xicidaili.com提供。 Request代理设置的方法:传入proxies参数即可。 selenium代理设置方法:修改并传入chrome_options参数即可。 阅读全文
摘要:
我们要爬取的网站为http://image.so.com/z?ch=photography,打开开发者工具,页面往下拉,观察到出现了如图所示Ajax请求, 其中list就是图片的详细信息,接着观察到每个Ajax请求的sn值会递增30,当sn为30时,返回前30张图片,当sn为60时,返回第31到60 阅读全文
摘要:
这就是极验验证码,通过拖动滑块移动拼图来验证。我们观察到点击滑块时拼图才会出现,所以我们可以在点击滑块之前截取图像,点击滑块再截取一次图像,将前后两次图像做比较就可以找到图片改动的位置。获得位置后,我们需要模拟人类的操作将滑块移动到指定的位置。代码如下: 阅读全文
摘要:
Spider有以下属性: 起始URL列表。如果没有实现start_requests()方法,默认会从这个列表开始爬取。 Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Downloader的作用有两个:1.在Schedul 阅读全文
摘要:
接下来以爬取quote.toscrape.com为例完成一遍Scrapy的抓取流程。 首先创建一个Scrapy项目。打开命令行,输入以下命令: scrapy startproject projectname 即可在当前位置创建一个Scrapy项目。我们创建一个名为tutorial的项目: scrap 阅读全文
摘要:
Scrapy框架的架构图如上。 Scrapy中的数据流由引擎控制,数据流的过程如下: 1.Engine打开一个网站,找到处理该网站的Spider,并向该Spider请求第一个要爬取得URL。 2.Engine从Spider中获取到第一个要爬的URL,并通过Scheduler以Request的形式调度 阅读全文