2018 年 3月 9 日随笔档案 - aibbt_com

2018年3月9日

摘要： Keras官方中文版文档如何引用 Keras? 如何在 GPU 上运行 Keras? 如何在多 GPU 上运行 Keras 模型？ "sample", "batch", "epoch" 分别是什么？如何保存 Keras 模型？为什么训练集误差比测试集的误差高很多？如何获取中间层的输出？如何用 Keras 处理超过内存的数据集？在验证集的误差不再下降时，如何中断训练？验证集划分是如何计算的？在训练过程中数据是否会混洗？如何在每个 epoch 后记录训练集和验证集的误差和准确率？如何「冻结」网络层？如何使用状态 RNNs (stateful RNNs)? 如何从 Sequential 模型中移除一个层？如何在 Keras 中使用预训练的模型？如何在 Keras 中使用 HDF5 输入？ Keras 配置文件保存在哪里？如何在 Keras 开发过程中获取可复现的结果？阅读全文

posted @ 2018-03-09 23:01 aibbt_com 阅读(147) 评论(0) 推荐(0) 编辑

深度学习框架： Keras官方中文版文档正式发布

摘要：这一次发布的是 Keras 官方中文文档，它得到了严谨的校对而提升了整体质量。但该项目还在进行中，虽然目前已经上线了很多 API 文档和使用教程，但仍然有一部分内容没有完成。其实早在官方中文文档出现以前，就有开发者构建了 Keras 的中文文档，而且很多读者都在使用 MoyanZitto 等人构建的中文文档。阅读全文

posted @ 2018-03-09 21:34 aibbt_com 阅读(302) 评论(0) 推荐(0) 编辑

ArXiv最受欢迎开源深度学习框架榜单：TensorFlow第一，PyTorch第四

摘要： Kears作者François Chollet刚刚在Twitter贴出最近三个月在arXiv提到的深度学习框架，TensorFlow不出意外排名第一，Keras排名第二。随后是Caffe、PyTorch和Theano，再次是MXNet、Chainer和CNTK。 Keras作者François Chollet刚刚在Twitter贴出一张图片，是近三个月来arXiv上提到的深度学习开源框架排行：阅读全文

posted @ 2018-03-09 21:13 aibbt_com 阅读(5658) 评论(0) 推荐(0) 编辑

20行代码实现电影评论情感分析

摘要：情感分析有很多的应用场景，比如做一个电商网站，卖家需要时刻关心用户对于商品的评论是否是正面的。再比如做一个电影的宣传和策划，电影在键盘侠们中的口碑也至关重要。互联网上关于任何一个事件或物品都有可能产生成千上万的文本评论，如何定义每一个文本的情绪是正面或是负面的，是一个很有挑战的事情。挑战体现在以下几个方面，区别于结构化数据，评论数据的长短不一，很难限定到固定的维度。另外很难通过某个词判断用户的情绪，举个极端的例子，fu*k通常被认为是贬义词，但是如果一条评论是“傲海 is fu*kinghandsome”，那么其实就是一个正向的意义。本文我要使用IMDB数据集，通过20行的Tensorflow代码实现一个电影评论预测模型，准确率可以超过百分之九十五，里面涉及到一些词袋模型以及embedding的概念，这些我等下一篇文章再讲，这一次我们就讲实践。阅读全文

posted @ 2018-03-09 21:02 aibbt_com 阅读(1988) 评论(0) 推荐(0) 编辑

神级程序员：让你的爬虫就像人类的用户行为！你敢封我IP吗？

摘要：近期，有些朋友问我一些关于如何应对反爬虫的问题。由于好多朋友都在问，因此决定写一篇此类的博客。把我知道的一些方法，分享给大家。博主属于小菜级别，玩爬虫也完全是处于兴趣爱好，如有不足之处，还望指正。在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。说句实在话，如果我的网站总是让人爬来爬取的，经常被虚拟访问者骚扰，我也是蛮烦的，而且如果遇到“霸道”一点的爬虫，都能直接把服务器卡死。因此，我们在爬取别人网站的时候，也多为对方考虑考虑。不过话说回来，我却没有这个烦恼，为什么呢？因为我根本就没有自己的网站阅读全文

posted @ 2018-03-09 12:28 aibbt_com 阅读(3643) 评论(0) 推荐(2) 编辑

【小白学爬虫连载（10）】–如何用Python实现模拟登陆网站

摘要： Python实现模拟登陆的方式简单来说有三种：一、采用post请求提交表单的方式实现。二、利用浏览器登陆网站记录登陆成功后的cookies，采用get的请求方式，传入cookies值来实现登陆。三、采用模拟浏览器的方式登陆。三种方式各有利弊，采用第一种方式每次运行程序都是重新登陆，容易造成封账号的情况出现，同时不能用在验证码是JS加载生成的和查看不到提交表单格式这两种情况。我认为第二种方式优于第一种和第三种，大多数情况下推荐使用第二种。对于较大规模的采集，一般的做法是利用大量小号采用第一或第三种方式定期生成大量的cookies，保存起来形成一个自己的cookie池，并维护其有效性，在采集时调用cookie池中的cookies完成爬取。阅读全文

posted @ 2018-03-09 12:23 aibbt_com 阅读(1510) 评论(0) 推荐(0) 编辑