摘要:抓取交易所评论时,有一些汉字待处理,比如“”2018年1月1日“”,需要将日期转化为datetime类型。 很奇怪,在windows环境只需添加 即可正常运行,但复制到linux系统后,会报错:UnicodeEncodeError: 'ascii' codec can't encode charac 阅读全文
爬虫笔记<关于鼠标点击和内容输入>
2019-01-07 16:31 by 陈子宁, 1080 阅读, 0 推荐, 收藏, 编辑
摘要:1. 采用google浏览器(试验时有头浏览器方便检测,代码完成后改为无头浏览) 注意: 需要提前安装google的chrome.exe到python默认执行目录。否则python.exe不知道从哪里调用chrome,会报错。 2. 模拟鼠标点击 webserver 提供了鼠标操作的封装类Actii 阅读全文
第一节:分布式文件系统(DFS,Distributed File System)
2018-11-30 08:26 by 陈子宁, 406 阅读, 0 推荐, 收藏, 编辑
摘要:1 Hadoop教程:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html Master 和 Slave(Code),对应 namecode 和 datacode 2. Spark教程:https://www.cnblogs.com 阅读全文
python 抓取上交所、深交所互动版块的投资者提问(散户评论)
2018-11-28 11:32 by 陈子宁, 3654 阅读, 0 推荐, 收藏, 编辑
摘要:股票价格会受到各种小道消息的干扰,而这种小道消息对量化来讲很难控制(除非时时刻刻对网络所有资源进行监控,而这不现实)。 散户通常是小道消息的追捧者,所以我的想法是设计一个针对散户的爬虫。 思路:东方财富股吧有一个问董秘栏目,是散户和上市公司沟通的平台。个股的小道消息散播后,经常会有散户到问董秘栏目对 阅读全文
Hello World
2018-11-27 15:35 by 陈子宁, 223 阅读, 0 推荐, 收藏, 编辑
摘要:First day to BoKeYuan. Start a new travel to record and share my study expirence. ] 阅读全文