大數據工程師面試題

項目背景

项目一:Regulatory Reporting Automation。數據來源于内部不同部門,然後清洗加工后,以Excel、CSV的形式提供給用戶使用。數據源從 Juniper 上獲取,ETL 部分在 GCP (Google Cloud Platform) 上,報表是在 Tableau 上,用 Python 生成 Report。因爲項目有國外和香港同事,所以需要會英語和粵語。(技术要求:Python, Tableau, SQL, Big Data, Cloud)

项目二:Fermat Demise。旧系统的维护,和新系统的搭建。(技术要求:Python, ETL, SQL, Big Data)

綫上面試

開場白

您好!我是面試官 XXX。

方便開一下攝像頭嗎?

語言水平

請您用英文做一段簡單的自我介紹。

Okay, thank you for your introduce.

Now, i will ask you some questions. You can try to answer me in English. Are you okay?

Do you have any English certification?

What was the biggest challenge in your last job?

Are you confident in using English in your daily work?

請問您會說粵語嗎?

項目經驗

請詳細説一下最近做的項目。

在這個項目裏具體負責哪部分?

數據来源于哪里?是怎么获取的?通常有什么类型?

数据的使用方是谁?主要用来做什么?

报表用什么工具生成的?具体怎样实现的?

怎样抽取數據到 ODS (Operational Data Store)?

做了哪些清洗和轉換工作?
清洗不完整、錯誤、重複的數據
轉換不一致的數據、聚合數據粒度、計算業務規則

怎樣加載數據到 DW (Data Warehousing)?

ETL

有做過爬蟲嗎?具體怎麽做的?使用了什麽反爬技術呢?有涉及多綫程的情況嗎?

ETL 具體是怎麽做的?

做 ETL 時要遵守什麽規範或標準?例如,表要怎麽設計的?

怎麽去處理數據中的缺失值?

Tableau 是用來做什麽的?

有配置過 Tableau 嗎?

Python

有使用過 Python 嗎?

在哪些方面使用得比較多?有沒有一些實際的使用場景?
可视化、数据清理、数据建模

最常用是哪些庫?
Pandas、Numpy

Python 中的 Pandas 和 Numpy 有什麽區別?

Pandas 讀取數據太大,内存不足時,會怎麽處理?

大數據

假设由你来设计大数据平台,您会怎么设计?整体架构有什么组件,都负责什么功能?
数据可视化:Hadoop、Yarn 分布式系统、Hive 数据仓库、即时查询组件、Spark Stream、消息队列(Kafka)、Flink 消息处理、机器学习,数据可视化(echar.js)、奥斯卡版、海豚调度、阿里云的 BI、tabbleu、PowerBI、神策系统(第三方数据平台)

两个百亿的 IP 大文件,如何查找 Top100 的 IP?
Spark 通过 GroupBy,然后排序,得出前 100 的 IP

Spark 的 RDD 有什么特点?是用 Spark RDD 还是 Spark SQL?

Spark SQL 如何调试?如何确保 Spark 任务正确性?Spark 如何进行单元测试?

Spark 和 Hadoop对比,有哪些区别?

为什么有 Spark 出现呢?
谷歌的论文,引发 Hadoop 出现。

Hbase 和关系型数据库的区别?
不会限制列,RowKey

ETL 数据清洗会使用什么样的工具?
监控 binlog

Keras 识别手写数字的整个流程是怎样的?
准备数据集;训练集、测试集、对应标签;算法、基础神经网络、卷积网络

训练出来的模型怎么用?
Web + Predict

项目协作

使用了什么版本控制系统?
SVN、Git

使用了怎樣的 Git 工作流程?
Git flow、GitHub flow、GitLab flow

使用了什么项目管理软件?
Jira、Redmine、TAPD、Worktile、禪道

使用了什么监控报警工具?

有沒有聽過敏捷開發?对它的理解?

结束语

您还有什么补充或疑问吗?

感谢您来参加今天的面试。

posted @ 2021-05-14 16:39  超懶的薯仔  阅读(366)  评论(0编辑  收藏  举报