随笔分类 -  Python&Machine Learning

摘要:简单聊聊Storm的流分组策略 首先我要强调的是,Storm的分组策略对结果有着直接的影响,不同的分组的结果一定是不一样的。其次,不同的分组策略对资源的利用也是有着非常大的不同,本文主要讲一讲localOrShuffle这个分组对资源利用的重大改善。最后,不同的分组对项目的逻辑也起着至关重要的决定, 阅读全文
posted @ 2017-04-20 18:22 cutd 阅读(3445) 评论(0) 推荐(0) 编辑
摘要:写在前面的话 本人长期关注数据挖掘与机器学习相关前沿研究。欢迎和我交流。 我自己测试了一下这个版本,总的来说更加稳定,新增的特性并没有一一测试,仅凭kafk client来说,是达到了生产环境的使用。 使用阿里云服务器的话,使用清华的节点下载是巨快的。(http://mirrors.tuna.tsi 阅读全文
posted @ 2017-03-31 20:13 cutd 阅读(4918) 评论(0) 推荐(0) 编辑
摘要:scrapy note command 全局命令: startproject :在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目。 settings:在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定。 runspider:在未创 阅读全文
posted @ 2016-12-21 19:41 cutd 阅读(6881) 评论(1) 推荐(1) 编辑
摘要:1:改进我们的特征 在上一个任务中,我们完成了我们在 "Kaggle" 上一个机器学习比赛的第一个比赛提交 "泰坦尼克号:灾难中的机器学习" 。 可是我们提交的分数并不是非常高。有三种主要的方法可以让我们能够提高他: 用一个更好的机器学习算法; 生成更好的特征; 合并多重机器学习算法。 在这节的任务 阅读全文
posted @ 2016-07-28 09:37 cutd 阅读(2387) 评论(0) 推荐(0) 编辑
摘要:此为中文翻译版 1:竞赛 我们将学习如何为 "Kaggle" 竞赛生成一个提交答案( )。Kaggle是一个你通过完成算法和全世界机器学习从业者进行竞赛的网站。如果你的算法精度是给出数据集中最高的,你将赢得比赛。Kaggle也是一个实践你机器学习技能的非常有趣的方式。 Kaggle网站有几种不同类型 阅读全文
posted @ 2016-07-28 09:35 cutd 阅读(10917) 评论(4) 推荐(6) 编辑
摘要:如何使用Python在Kaggle竞赛中成为Top15 Kaggle比赛是一个学习数据科学和投资时间的非常的方式,我自己通过Kaggle学习到了很多数据科学的概念和思想,在我学习编程之后的几个月就开始了Kaggle比赛,最近还赢得了几个比赛。 要在Kaggle比赛中取得好成绩不仅仅是要求知道一些机器 阅读全文
posted @ 2016-07-04 23:33 cutd 阅读(3463) 评论(0) 推荐(0) 编辑
摘要:系统环境: Windows10 64bit Anaconda4 Python3.5.1 软件安装: Git for Windows MINGW 在安装的时候要改一个选择(Architecture选择x86_64,其他不变) 在安装的时候要改一个选择(Architecture选择x86_64,其他不变 阅读全文
posted @ 2016-05-16 14:15 cutd 阅读(8519) 评论(1) 推荐(0) 编辑
摘要:BuildingMachineLearningSystemsWithPython Python机器学习入门 数据分析五个步骤 1. 读取和清洗数据 2. 探索和理解输入数据[我的理解是业务理解] 3. 分析如何将算法应用在算法中 4. 选择最优的模型和算法 5. 评估性能 社区资源 最好的资源的ka 阅读全文
posted @ 2016-04-15 23:54 cutd 阅读(559) 评论(0) 推荐(0) 编辑
摘要:NoteBook of 《Data Analysis with Python》 3.IPython基础 Tab自动补齐 变量名 变量方法 路径 解释 ?解释, ??显示函数源码 ?搜索命名空间 %run命令 %run 执行所有文件 %run i 访问变量 Ctrl C中断执行 %paste可以粘贴剪 阅读全文
posted @ 2016-04-06 23:48 cutd 阅读(12100) 评论(0) 推荐(0) 编辑
摘要:Data Analysis with Python ch02 一些有趣的数据分析结果 Male描述的是美国新生儿男孩纸的名字的最后一个字母的分布 Female描述的是美国新生儿女孩纸的名字的最后一个字母的分布 阅读全文
posted @ 2016-03-31 21:54 cutd 阅读(210) 评论(0) 推荐(0) 编辑
摘要:此前scrapy只支持python2.x 但是最新的1.1.0rc1已结开始支持py3了 如果电脑上安装了scrapy的依赖包,诸如lxml、OpenSSL 1.你直接下载Scrapy-1.1.0rc1到python工作目录 https://pypi.python.org/pypi/Scrapy/1 阅读全文
posted @ 2016-02-26 15:36 cutd 阅读(545) 评论(0) 推荐(0) 编辑
摘要:1.首先是明白cookie和 Session cookie:给客户端们颁发一个通行证吧,每人一个,无论谁访问都必须携带自己通行证。这样服务器就能从通行证上确认客户身份了。这就是Cookie的工作原理。 客户端浏览器访问服务器的时候,服务器把客户端信息以某种形式记录在服务器上。这就是Session。 阅读全文
posted @ 2016-02-26 15:25 cutd 阅读(193) 评论(0) 推荐(0) 编辑
摘要:git学习笔记 @(python) git 命令这是git常用命令 init 建立git仓库 add 把文件添加到仓库 commit 把文件提交到仓库,将暂存区中的文件提交到master中 status 掌握仓库的状态,看到更改的,有没有提交 diff =differents变化 log 查看历史记 阅读全文
posted @ 2016-02-26 02:26 cutd 阅读(453) 评论(0) 推荐(0) 编辑
摘要:则表达式”描述在搜索文本正文时要匹配的一个或多个字符串。 该表达式可用作一个将字符模式与要搜索的字符串相匹配的模板。 正则表达式包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”)。 特殊字符 下表包含了单字符元字符的列表以及它们在正则表达式中的行为。 注意 若要匹配这些特殊字符 阅读全文
posted @ 2016-02-26 02:22 cutd 阅读(577) 评论(0) 推荐(0) 编辑