摘要: 本质思想:分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果。(reduce) MapReduce运行流程 JobTracker:作业的管理者 将作业分解成一堆任务(MapTask和ReduceTask),分配给TaskTracker运行, 作业的监控,容错处理,在一定时间间隔内 阅读全文
posted @ 2018-03-22 20:00 家迪的家 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 伪分布式配置: core-site.xml hdfs-site.xml mapred-site.xml (可能需要重命名mapred-site.xml.template) yarn-site.xml 初始化 启动 查看 打开Hadoop Resource-Manager Web界面 http://l 阅读全文
posted @ 2018-03-22 09:34 家迪的家 阅读(328) 评论(0) 推荐(0) 编辑
摘要: df.drop_duplicates(subset=None, keep='first', inplace=False) 1 data.drop_duplicates()#data中一行元素全部相同时才去除 2 data.drop_duplicates(['a','b'])#data根据’a','b 阅读全文
posted @ 2018-03-21 13:38 家迪的家 阅读(31890) 评论(0) 推荐(0) 编辑
摘要: 前言:由于登录反爬措施的越来越麻烦,甚至出现了12306这种看图识物的无敌验证码,我只能说,我选择死亡。这就衍生出了使用selenium来获取获取cookies。 实例:获取qq空间cookies,亲测成功2018-3-7(注意点:chromedriver.exe的路径输入) cookies一保存, 阅读全文
posted @ 2018-03-07 15:23 家迪的家 阅读(13209) 评论(0) 推荐(1) 编辑
摘要: 1.1什么是selenium selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题、通过账号密码获取cookies(基于各大网站登录验证码的升级,特别是12306)。 1.2centos7无桌面环境部署 安装火狐浏览器 $ yum ins 阅读全文
posted @ 2018-03-07 14:38 家迪的家 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 案例: 假如你已经完成了正则化线性回归,也就是最小化 代价函数 J 的值,假如,在你得到你的学习参数以后,如果你要将你的假设函数放到一组新 的房屋样本上进行测试,结果发现在预测房价时产生了巨大的误差,如何改进这个算法。 方法:1. 获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效 阅读全文
posted @ 2018-03-05 17:30 家迪的家 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 1.1分类问题 在分类问题中,你要预测的变量 y 是离散的值,我们将学习一种叫做逻辑回归 (LogisticRegression) 的算法,这是目前最流行使用最广泛的一种学习算法。 在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件 阅读全文
posted @ 2018-03-01 16:39 家迪的家 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 不常用的函数总是遗忘,很是困扰啊。于是痛下时间,做一个系统的总结,纯原创,都是些实际项目中常用的函数和方法,当然还有一些这边也是没有记录的,因为我在实际数据处理过程中也没有遇到过(如字符串处理等等)。 创建基本ndarray类实例: 数据类型: 分为三大类:整型,浮点型,python对象。 数组属性 阅读全文
posted @ 2018-02-26 14:02 家迪的家 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 1.什么是无监督学习? 分类数据没有标签,也叫聚类。k-means 算法是目前最为广泛使用的聚类方法。 在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。 training set {x1,x2,x3,...} 2.k 阅读全文
posted @ 2018-02-26 11:01 家迪的家 阅读(177) 评论(0) 推荐(0) 编辑
摘要: np.random.seed()用法: np.random.choice()的用法: np.random.permutation()的用法: 随机排列一个序列,返回一个排列的序列 np.random.uniform(low=0.0, high=1.0, size=None): 从一个均匀分布[low 阅读全文
posted @ 2018-02-26 09:41 家迪的家 阅读(499) 评论(0) 推荐(0) 编辑