02 2021 档案
从新浪财经获取金融新闻类数据
摘要:新浪财经是金融新闻类数据挖掘很重要的一个数据来源,它的新闻质量一般都很高。在这里使用爬虫的方法来获取新浪财经的一些新闻资讯。 第一步: 打开新浪财经网站 第二步: 搜索‘工商银行’ 第三步: 获取新浪财经里的‘工商银行’的url url = 'https://search.sina.com.cn/? 阅读全文
posted @ 2021-02-28 20:57 桌子哥 阅读(1125) 评论(0) 推荐(0) 编辑
Firefox浏览器获取Header
摘要:对于网络爬虫来说header是很重要的一环,因为有些网站只认可浏览器发送的访问请求。 网上的例子多是Chrome的,Firefox的较少。 第一步: 使用百度打开一个网页 第二步: 按F12进入开发者模式 第三步: 选择网络 第四步: 点击一项进去 右下角可以看到User-Agent 有这个就可以进 阅读全文
posted @ 2021-02-28 10:45 桌子哥 阅读(644) 评论(0) 推荐(0) 编辑
数据仓库技术架构
摘要:数仓架构分五层,第一层是数据源,又称上游系统,银行为例,数据源由核心系统、ECIF、贷款系统、存款系统、中间业务总账系统、财务系统 等等。 第二层,贴源层,又称标准化层(ODS),这里需要清洗脏数据(用正则表达式、条件过滤),规范命名,数据类型和格式作标准化处理,添加时间戳字段。 源到贴源层用ETL 阅读全文
posted @ 2021-02-14 21:43 桌子哥 阅读(974) 评论(0) 推荐(0) 编辑