大数据工程师面试笔试宝典

1星价 ¥64.1 (7.2折)

2星价￥64.1 定价￥89.0

作者：杨俊

出版社：机械工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 数据库 > 数据库理论

暂无评论

图文详情

ISBN：9787111753872
装帧：平装-胶订
册数：暂无
重量：暂无
开本：16开
页数：239
出版时间：2024-07-01
条形码：9787111753872 ; 978-7-111-75387-2

本书特色

《大数据工程师面试笔试宝典》系统覆盖大数据工程师岗位需要掌握的重要概念、技术和工具，包括Hadoop、Spark、Flink、Hive、HBase、Kafka等，以及大数据与人工智能的交叉点。
视频精讲：68个大数据核心知识点分享视频
真题全解：提供超200页大数据面试笔试真题及答案

内容简介

《大数据工程师面试笔试宝典》全面讲解了大数据的核心技术及如何解答大数据工程师面试笔试中的常见问题，还引入了相关知识点辅以说明，让读者对所学知识进行查漏补缺，帮助读者顺利通过大数据工程师面试笔试。
《大数据工程师面试笔试宝典》的题目均来自一线互联网公司面试笔试真题，涵盖大数据基础、大数据生态圈技术组件以及大数据不同岗位的面试笔试题。第1～2章主要介绍了职业道路如何选择、面试笔试前如何准备、面试笔试过程中如何应对，以及面试经常遇到的“坑”。第3章介绍了大数据基础面试笔试题，让读者学会利用大数据思维解决常见应用场景；第4～10章重点介绍了大数据生态圈核心技术的面试笔试题，让读者加强对大数据技术组件的理解；第11～13章介绍了大数据仓库、大数据项目、大数据运维方向的常见面试笔试题；第14章探讨了大数据与人工智能的交叉点，让读者可以轻松应对大数据工程师的面试笔试。
《大数据工程师面试笔试宝典》内容的深度和广度贴近实际，将帮助大数据领域的求职者为面试笔试做好充分的准备，提高面试成功率，同时，《大数据工程师面试笔试宝典》也可作为从业者的实用工具书，以加深对大数据技术和实践的理解。无论是初学者还是有经验的专业人士，都将从本书提供的详实信息和实用建议中受益。

前言
第1章面试笔试心得交流
1.1 摆正求职心态／1
1.2 求职前准备／2
1.3 做好自我介绍／4
1.4 职业规划是什么／5
1.5 为什么离开上一家公司／6
1.6 被面试官否定怎么办／6
1.7 加分项一定要呈现出来／7
1.8 面试禁忌／8
1.9 面试会有哪些“坑”／8
1.10 如何应对自己不会回答的问题／9
1.11 如何应对某一次面试失败／10
1.12 面试成功是否就高枕无忧／11
第2章大数据工程师面试笔试攻略
2.1 大数据职业的岗位划分／12
2.2 典型大数据工程师的职业发展路径／13
2.3 公司大数据部门划分与人员编制／15
2.4 大数据工程师的工作职责／16
2.5 大数据工程师简历如何编写／17
2.6 缺少大数据项目经验如何应对／18
2.7 大数据面试笔试需要掌握哪些技能／19
2.8 如何把握大数据工程师的面试笔试重点／24
2.9 引导面试官提问自己擅长的技术／25
第3章大数据基础应用
3.1 大数据基础知识／27
3.1.1 大数据生态体系／27
3.1.2 大数据基石—云计算／29
3.1.3 大数据核心—海量数据／30
3.1.4 大数据灵魂—大数据技术／31
3.1.5 大数据价值—商业应用／32
3.2 大数据算法／32
3.2.1 如何从海量数据中找出*高频词／32
3.2.2 如何找出访问百度次数*多的IP地址／34
3.2.3 如何从2.5亿个整数中找出不重复的整数／36
3.2.4 判断一个数在40亿数据中是否存在／38
3.2.5 如何找出CSDN网站*热门的搜索关键词／39
3.2.6 如何从大量数据中统计不同手机号的个数／41
3.2.7 如何从大量数据中找出重复次数*多的一条数据／42
3.2.8 如何对大量数据按照query的频度排序／43
3.2.9 如何从大量的URL中找出相同的URL／44
3.2.10 如何从5亿个数中找出中位数／46
第4章 ZooKeeper分布式协调服务
4.1 简述ZooKeeper包含哪些重要特性／48
4.2 简述ZooKeeper包含哪些应用场景／49
4.3 简述ZooKeeper包含哪几种Znode节点类型／51
4.4 请问ZooKeeper对Znode的监听是永久的吗／52
4.5 请问ZooKeeper集群包含多少节点合适／52
4.6 简述ZooKeeper集群节点包含哪些角色／53
4.7 简述ZooKeeper集群节点有哪几种工作状态／54
4.8 请问ZooKeeper节点宕机后内部如何处理／54
4.9 请问ZooKeeper集群是否支持动态添加机器／55
4.10 简述ZooKeeper集群的数据读写流程／56
4.11 简述ZooKeeper的监听器原理／57
4.12 谈谈你对CAP原则的理解／58
4.13 谈谈ZAB协议在ZooKeeper中的作用／59
4.14 谈谈你对ZooKeeper选举机制的理解／60
4.15 阐述ZooKeeper如何保证事务的顺序一致性／62
4.16 阐述如何迁移ZooKeeper集群／62
第5章 Hadoop大数据平台
5.1 Hadoop分布式文件系统（HDFS）／64
5.1.1 阐述HDFS中的数据块大小设置／64
5.1.2 简述HDFS的副本存放策略／65
5.1.3 阐述如何处理HDFS大量小文件问题／65
5.1.4 简述NameNode元数据存储在什么位置／67
5.1.5 阐述如何解决edits文件过大的问题／67
5.1.6 简述HDFS读数据流程／68
5.1.7 简述HDFS写数据流程／69
5.1.8 简述NameNode HA的运行机制／71
5.1.9 简述HDFS联邦机制／71
5.1.10 阐述如何处理NameNode宕机问题／72
5.1.11 阐述如何处理DataNode宕机问题／73
5.1.12 简述HDFS支持哪些存储格式与压缩算法／73
5.2 Hadoop资源管理系统（YARN）／75
5.2.1 简述YARN应用的运行机制／75
5.2.2 阐述YARN与MapReduce1的异同／76
5.2.3 简述YARN 高可用原理／77
5.2.4 简述YARN的容错机制／78
5.2.5 简述YARN调度器的工作原理／79
5.2.6 阐述YARN的任务提交流程／81
5.3 Hadoop分布式计算框架（MapReduce）／82
5.3.1 简述MapReduce作业运行机制／82
5.3.2 简述MapReduce Shuffle过程／85
5.3.3 简述MapReduce作业失败与容错机制／87
5.3.4 阐述如何解决MapReduce数据倾斜问题／89
5.3.5 简述MapReduce二次排序原理／90
5.3.6 简述MapReduce Join实现原理／91
第6章 Hive数据仓库工具
6.1 简述Hive与传统数据库的异同／93
6.2 简述Hive与HBase的异同／94
6.3 简述Hive包含哪些建表方式／94
6.4 简述Hive内部表与外部表的区别／95
6.5 简述Hive分区表与分桶表的区别／96
6.6 简述Hive包含哪些表连接方式／97
6.7 简述collect_list()与collect_set()函数的区别／98
6.8 简述ORDER BY、DISTRIBUTE BY、SORT BY和
CLUSTER BY的区别与联系／99
6.9 谈谈如何预防Hive查询全表扫描／100
6.10 简述Hive包含哪些自定义函数／101
6.11 阐述如何解决Hive数据倾斜问题／101
6.12 阐述Hive有哪些性能调优手段／104
第7章 HBase分布式数据库
7.1 简述HBase的应用场景／106
7.2 简述HBase读数据流程／107
7.3 简述HBase写数据流程／108
7.4 阐述HBase Region如何定位／109
7.5 简述HBase Region的合并与分裂过程／110
7.6 阐述HBase如何设计RowKey／112
7.7 阐述HBase如何实现预分区／112
7.8 谈谈你对HBase二级索引的理解／113
7.9 阐述HBase如何降低磁盘IO／114
7.10 阐述HBase如何处理冷热数据／117
7.11 简述HBase有哪些性能调优手段／117
第8章 Kafka分布式消息队列
8.1 简述ZooKeeper在Kafka中的作用／120
8.2 简述Kafka文件存储设计特点／121
8.3 简述Kafka的使用场景／121
8.4 简述Kafka写数据流程／122
8.5 阐述Kafka为什么不支持读写分离／122
8.6 简述Kafka哪些地方涉及选举／123
8.7 简述Kafka Topic分区的分配规则／123
8.8 谈谈你对Kafka消费者负载均衡策略的理解／124
8.9 谈谈你对Kafka再均衡的理解／124
8.10 简述Kafka生产者ACK机制／125
8.11 阐述Kafka如何实现数据同步／125
8.12 阐述如何提高Kafka吞吐量／126
8.13 阐述如何优化Kafka生产者数据写入速度／127
8.14 阐述Kafka如何实现高效读取数据／127
8.15 阐述Kafka如何保证高吞吐量／128
8.16 阐述Kafka如何保证数据可靠性／128
8.17 阐述Kafka如何保证数据不丢失／129
8.18 阐述Kafka如何保证消息幂等性／130
8.19 阐述Kafka如何保证消息被顺序消费／130
8.20 阐述Kafka消费者数量较大对性能有何影响／131
第9章 Spark内存计算框架
9.1 谈谈Hadoop和Spark的区别与联系／132
9.2 简述Spark与MapReduce的Shuffle区别／133
9.3 阐述Spark解决了Hadoop哪些问题／136
9.4 简述Spark应用程序的生命周期／137
9.5 谈谈你对RDD机制的理解／140
9.6 简述RDD包含哪些缺陷／140
9.7 阐述Spark如何划分DAG的Stage／141
9.8 请问Spark中的数据位置由谁来管理／142
9.9 谈谈reduceByKey与groupByKey的区别与联系／143
9.10 谈谈Cache和Persist的区别与联系／143
9.11 阐述如何解决Spark中的数据倾斜问题／144
9.12 阐述如何解决Spark中的OOM问题／145
9.13 阐述Spark Streaming如何保证Exactly-Once语义／146
9.14 阐述Spark Streaming如何性能调优／148
9.15 谈谈你对Spark Streaming背压机制的理解／150
第10章 Flink流式计算框架
10.1 谈谈Spark与Flink的区别与联系／151
10.2 简述Flink有哪些方式设置并行度／156
10.3 阐述如何合理评估Flink任务的并行度／157
10.4 谈谈你对Flink Operator Chain的理解／157
10.5 谈谈你对Flink重启策略的理解／158
10.6 阐述Flink内存管理是如何实现的／160
10.7 阐述Flink Task如何实现数据交换／161
10.8 阐述Flink状态如何实现容错／162
10.9 简述Flink分布式快照原理／164
10.10 阐述Flink如何保证端到端Exactly-Once语义／166
10.11 阐述如何解决Flink任务延迟高的问题／169
10.12 阐述如何处理Flink反压问题／170
10.13 阐述Flink海量数据如何实现去重／171
10.14 阐述Flink如何处理迟到的数据／172
10.15 阐述如何解决Flink数据倾斜／173
10.16 阐述如何解决Flink Window中的数据倾斜／174
第11章大数据仓库
11.1 谈谈你如何理解数据库三范式／175
11.2 阐述为什么需要数仓建模／177
11.3 简述事实表分为哪几类／178
11.4 简述维度建模包含哪些常用的模型／178
11.5 简述维度建模实现过程／180
11.6 谈谈你对元数据的理解／180
11.7 谈谈数仓架构如何分层／181
11.8 谈谈你对离线数仓架构的理解／183
11.9 谈谈你对Lambda架构的理解／184
11.10 谈谈你对Kappa架构的理解／185
11.11 阐述字段频繁变更的数仓架构如何设计／186
11.12 阐述如何实现拉链表／187
11.13 阐述如何查询连续7日登录的用户／188
11.14 阐述如何统计注册用户的留存数与留存率／190
第12章大数据项目
12.1 谈谈大数据项目组如何分工与协作／193
12.2 谈谈你在项目中扮演什么角色／194
12.3 简述你所在或曾任职公司的大数据集群规模／194
12.4 简述你所在或曾任职公司的项目数据类型及规模／196
12.5 简述你所在或曾任职公司的项目产生的表及数据量／196
12.6 简述你所在或曾任职公司的大数据项目业务需求／197
12.7 简述项目整体架构及技术选型／198
12.8 简述大数据项目遇到过的难点及解决方案／199
12.9 简述大数据项目遇到的瓶颈及优化方法／202
12.10 简述大数据项目开发周期及安排／204
第13章大数据运维
13.1 请问ZooKeeper节点宕机如何处理／206
13.2 阐述多次修改HDFS副本数如何计算数据总量／207
13.3 阐述如何估算HDFS需要的内存大小／207
13.4 请问DataNode节点宕机如何恢复／208
13.5 请问NameNode节点宕机如何恢复／208
13.6 阐述晚高峰期DataNode节点不稳定如何处理／209
13.7 阐述如何调优才能加快NameNode启动速度／210
13.8 请问Hadoop出现文件块丢失如何处理／211
13.9 请问文件写入HDFS是先全部写入再备份吗／211
13.10 请问如何查看HDFS目录下的文件数及位置／212
13.11 阐述集群硬盘损坏后的详细处理流程／213
13.12 阐述集群扩容后如何处理数据不均衡的现象／214
13.13 阐述运维人员如何避免开发人员误删数据／214
13.14 阐述大数据集群如何自动化扩容／215
13.15 阐述如何对大数据集群进行有效监控／216
13.16 阐述如何保证海量数据写入HBase的及时性／216
13.17 简述哪些情况会导致HBase Master发生故障／217
13.18 简述哪些情况会导致HBase RegionServer发生故障／218
13.19 阐述Kafka如何选择适当的分区数量／219
13.20 简述Kafka分区是否可以增加或减少／220
第14章大数据人工智能
14.1 如何解释大数据与人工智能之间的关系／221
14.2 阐述数据采集的作用以及数据质量对人工智能模型性能的
影响／222
14.3 当前流行的大型语言模型如何利用大数据进行训练／223
14.4 AIGC、Sora等项目是如何将大数据与人工智能
相结合的／224
14.5 请解释什么是数据驱动的人工智能／225
14.6 介绍一下常用的人工智能开发工具和平台／225
14.7 阐述AI中的基本概念及其区别与联系／226
14.8 数据预处理在人工智能中的作用是什么／227
14.9 如何评估人工智能模型的性能／229
14.10 阐述过拟合和欠拟合现象在机器学习中的含义及如何
解决／230
14.11 阐述在大数据环境中人工智能项目的伦理和
隐私问题／231
14.12 阐述数据可视化的作用并介绍一些常用的
工具和技术／232
14.13 阐述什么是监督学习、无监督学习和半监督学习／233
14.14 谈谈数据安全的挑战和解决方案／234
14.15 如何有效地管理和处理大规模的数据集／235
14.16 阐述深度学习的应用及其在大数据环境中的挑战和解决
方案／236
14.17 阐述强化学习的基本原理及其应用场景和优劣势／237
14.18 如何利用大数据和人工智能技术来优化企业的运营和
决策／238

展开全部

作者简介

杨俊，资深大数据架构师和技术专家，拥有十余年的大数据开发经验。精通Hadoop、Spark、Flink等主流大数据生态技术，尤其擅长Hadoop源码级技术。参与并主导了十余个重量级大数据项目，曾在广电数据咨询公司担任大数据架构师，负责大数据平台的架构设计与实施，并构建了企业级数据仓库。
畅销书《实战大数据（Hadoop Spark Flink）》和《Hadoop大数据技术基础与应用》的作者。51CTO知名培训讲师，拥有30余万粉丝，具有丰富的大数据技术培训经验。为数十家高校和企业提供过大数据技术课程培训，包括首都经济贸易大学、河北大学、北京交通大学等高校，以及中国移动、新华三（H3C）等知名企业。

本类五星书