2017年7月23日

如何爬取可用的IP代理

摘要: 上一篇说到对付反爬虫有一个很关键的方法就是使用IP代理,那么我们应该如何获取这些可用的IP代理呢?这里分享一下自己这两天的一些爬取IP代理的心得体会。 1 步骤 1.找到几个提供免费IP代理的网站,获取IP数据源 2.验证对应的IP代理访问出口IP是否跟本机的出口IP一致,得到不一致的IP代理列表 阅读全文

posted @ 2017-07-23 16:41 HelloF 阅读(2213) 评论(0) 推荐(0) 编辑

2017年7月19日

关于爬数据的一点点事情

摘要: 由于项目需要,最近需要从网上爬数据,也因此对爬数据这一块进行了一些了解。 关于爬虫,主要说说在实验过程中几个重要的点 1.伪装浏览器访问 一开始没注意这个问题,导致多次访问不是很顺畅,有时候需要等待好久。作为一个纯真的小男孩,初始代码非常简单,就像下面这样直接建立连接,然后获得对应url的内容。 后 阅读全文

posted @ 2017-07-19 00:25 HelloF 阅读(2134) 评论(0) 推荐(0) 编辑

2017年3月14日

关于广告点击率预估的几个链接

摘要: 1. 互联网广告综述之点击率特征工程 http://blog.csdn.net/ariessurfer/article/details/40380051 2.在线学习算法FTRL http://blog.csdn.net/mytestmy/article/details/18980163 3.画RO 阅读全文

posted @ 2017-03-14 01:13 HelloF 阅读(155) 评论(0) 推荐(0) 编辑

2017年3月9日

关于机器学习面试的一些链接

摘要: 1.机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 2.一些常用的机器学习算法库 阅读全文

posted @ 2017-03-09 10:16 HelloF 阅读(117) 评论(0) 推荐(0) 编辑

2017年3月5日

关于FFM (Field-aware Factorization Machines) 的几篇博客

摘要: 深入FFM原理与实践 http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html#mjx-eqn-eqfm 阅读全文

posted @ 2017-03-05 01:08 HelloF 阅读(223) 评论(0) 推荐(0) 编辑

2016年11月26日

AttributeError: module 're' has no attribute 'search'

摘要: 命名py脚本时,不要与python预留字,模块名等相同,即Python文件名不要使用Python系统库的名字,就是因为使用了Python系统库的名字,所以在编译的时候才会产生.pyc文件。正常的Python文件在编译运行的时候是不会产生.pyc文件的! 这类问题的解决方法则是:更改python脚本的 阅读全文

posted @ 2016-11-26 01:18 HelloF 阅读(6327) 评论(0) 推荐(1) 编辑

2016年11月17日

类(Class)

摘要: 类 · 目的 面向对象的最主要目的是提高程序的重复使用性。 · 包括 属性(attribute)、方法(method) · 示例 1 class Bird(object): 2 have_feather = True 3 way_of_reproduction = 'egg' 4 def move( 阅读全文

posted @ 2016-11-17 11:09 HelloF 阅读(443) 评论(0) 推荐(0) 编辑

2016年11月16日

关于变量__name__的理解

摘要: __name__ 1. 基本含义 如果是放在Modules模块中,就表示是模块的名字; 如果是放在Classs类中,就表示类的名字; 2. 模块中的意义 这里重点说一下模块中的意义,这个用法在python中非常常见。若模块是被导入的(import),则__name__的值为模块名字;若模块是被直接执 阅读全文

posted @ 2016-11-16 15:18 HelloF 阅读(201) 评论(0) 推荐(0) 编辑

导航