2021 年 2月随笔档案 - 桌子哥

从新浪财经获取金融新闻类数据

摘要：新浪财经是金融新闻类数据挖掘很重要的一个数据来源，它的新闻质量一般都很高。在这里使用爬虫的方法来获取新浪财经的一些新闻资讯。第一步：打开新浪财经网站第二步：搜索‘工商银行’ 第三步：获取新浪财经里的‘工商银行’的url url = 'https://search.sina.com.cn/? 阅读全文

posted @ 2021-02-28 20:57 桌子哥阅读(1125) 评论(0) 推荐(0) 编辑

Firefox浏览器获取Header

摘要：对于网络爬虫来说header是很重要的一环，因为有些网站只认可浏览器发送的访问请求。网上的例子多是Chrome的，Firefox的较少。第一步：使用百度打开一个网页第二步：按F12进入开发者模式第三步：选择网络第四步：点击一项进去右下角可以看到User-Agent 有这个就可以进阅读全文

posted @ 2021-02-28 10:45 桌子哥阅读(644) 评论(0) 推荐(0) 编辑

数据仓库技术架构

摘要：数仓架构分五层，第一层是数据源，又称上游系统，银行为例，数据源由核心系统、ECIF、贷款系统、存款系统、中间业务总账系统、财务系统等等。第二层，贴源层，又称标准化层（ODS），这里需要清洗脏数据（用正则表达式、条件过滤），规范命名，数据类型和格式作标准化处理，添加时间戳字段。源到贴源层用ETL 阅读全文

posted @ 2021-02-14 21:43 桌子哥阅读(974) 评论(0) 推荐(0) 编辑