- ISBN:9787111712114
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:259
- 出版时间:2022-08-01
- 条形码:9787111712114 ; 978-7-111-71211-4
本书特色
适读人群 :大数据相关岗位程序员;相关院校迎接毕业生本书特色:系统覆盖大数据分析师岗位需要掌握的统计学、数据挖掘算法、数据可 视化知识和大数据相关技术(数据埋点、网络爬虫、数据仓库、ETL、 Hadoop、Spark)。 经验分享:详细讲解大数据相关职业需要的技能、工作流程及面试方法。 附赠资源:作者100分钟核心知识点分享视频及相关知识点思维导图/技能谱系图。
内容简介
《大数据分析师面试笔试宝典》旨在帮助读者了解大数据分析师的工作内容、技能要求、各类常用技术的原理和可能应用的场景。 大数据分析是一个多学科交叉的领域,包含了统计学、计算机科学、运筹学乃至市场营销学等。《大数据分析师面试笔试宝典》并没有介绍大数据分析领域涉及的所有方面,而是根据当前用人单位对大数据分析师的需求,选择了其中较为重要的内容进行解析,将当前大数据分析涉及的热点技术一网打尽。 阅读《大数据分析师面试笔试宝典》需要具备一定的数理统计知识基础和计算机编程背景。本书尽量不去证明一些在理论界已有的结论,而是用浅显的语言来解释复杂的公式,以便读者更为轻松地掌握全书的知识,从而能够从容面对面试以及日常工作。
目录
1.1 大数据分析技能要求/1
1.1.1 数据分析师/1
1.1.2 数据开发工程师/4
1.1.3 数据挖掘工程师/7
1.1.4 职业能力模型/10
1.2 数据分析工作流程/10
1.2.1 组织架构/10
1.2.2 分析流程/11
1.3 数据分析师临场面试/13
1.3.1 如何准备面试/13
1.3.2 面试问题/16
1.4 本章总结/18
第2章 统计学知识/19
2.1 概率知识/19
2.1.1 概率模型之间的关系解析/19
2.1.2 概率相关面试题/25
2.1.3 贝叶斯公式/28
2.2 参数估计/31
2.2.1 点估计/31
2.2.2 区间估计/34
2.3 假设检验/41
2.3.1 假设检验原理/41
2.3.2 两类错误/43
2.3.3 假设检验的常用方法/45
2.4 抽样技术解析/49
2.4.1 样本量影响因素分析/50
2.4.2 假设检验样本量计算/52
2.4.3 参数估计样本量计算/53
2.5 马尔可夫模型/54
2.5.1 马尔可夫过程原理/55
2.5.2 马尔可夫模型计算/55
2.6 隐马尔可夫模型/57
2.6.1 HMM和三类问题/57
2.6.2 求概率问题/58
2.6.3 预测问题/59
2.6.4 学习问题/60
2.7 EM算法/62
2.7.1 基本思想/62
2.7.2 算法流程/63
2.8 本章总结/63
第3章 数据挖掘算法/65
3.1 常用聚类算法/66
3.1.1 Kmeans算法/66
3.1.2 DBSCAN算法/68
3.1.3 聚类算法评估/69
3.2 常用分类算法/74
3.2.1 决策树/74
3.2.2 朴素贝叶斯/79
3.2.3 KNN/80
3.2.4 SVM/81
3.2.5 逻辑回归/84
3.2.6 BP神经网络/88
3.3 集成学习算法/91
3.3.1 Bagging原理/92
3.3.2 随机森林/93
3.3.3 Boosting原理/95
3.3.4 Adaboost算法/96
3.3.5 Stacking算法/99
3.3.6 分类算法评估/100
3.3.7 分类算法小结/108
3.4 关联规则算法/108
3.4.1 Apriori/108
3.4.2 Fp_Growth/111
3.4.3 算法评估/112
3.5 数据降维算法/112
3.5.1 降维技术基本理论/112
3.5.2 特征选择/113
3.5.3 主成分分析/116
3.5.4 SVD分解/118
3.5.5 降维方法选择/121
3.6 数据升维方法/121
3.6.1 分箱/121
3.6.2 交互式特征/123
3.7 推荐算法/124
3.7.1 基于内容推荐/124
3.7.2 基于用户的协同过滤/125
3.7.3 基于物品的协同过滤/126
3.7.4 SVD推荐原理/127
3.7.5 推荐算法评估/130
3.8 模型优化方法/130
3.8.1 机器学习抽样/130
3.8.2 相似性度量/134
3.8.3 损失函数/136
3.8.4 过拟合与欠拟合/138
3.8.5 正则化方法/139
3.8.6 剪枝方法/141
3.8.7 模型选择/144
3.9 本章总结/145
第4章 大数据技术解析/147
4.1 数据埋点技术/148
4.1.1 技术原理/148
4.1.2 代码埋点/149
4.1.3 可视化埋点/149
4.1.4 无埋点技术/150
4.1.5 埋点需求分析/150
4.1.6 选择部署方式/151
4.2 网络爬虫技术/152
4.2.1 聚焦爬虫工作流程/153
4.2.2 数据解析流程/154
4.2.3 爬行策略/154
4.2.4 网页更新策略/155
4.3 数据仓库技术/156
4.3.1 数仓名词解析/156
4.3.2 数据建模方法/161
4.3.3 数仓建设原则/164
4.3.4 SQL查询/166
4.3.5 SQL查询优化/170
4.4 ETL技术/171
4.4.1 数据质量评估/172
4.4.2 ETL流程/173
4.4.3 缺失值处理方法/177
4.4.4 异常值识别方法/179
4.5 Hadoop技术/180
4.5.1 Hadoop核心之HDFS/181
4.5.2 Hadoop核心之MapReduce/184
4.5.3 YARN/190
4.5.4 WordCount源码/192
4.5.5 MapReduce优化/194
4.6 Spark技术/196
4.6.1 Spark集群运行/196
4.6.2 Spark程序运行/199
4.6.3 Spark RDD/202
4.6.4 Spark存储/210
4.6.5 Spark 内存管理/216
4.6.6 Spark资源分配/222
4.6.7 Spark Shuffle机制/224
4.6.8 Spark的算子调优/230
4.6.9 数据倾斜问题解析/231
4.7 本章总结/235
第5章 数据可视化/237
5.1 图表类型/237
5.2 绘图原则/243
5.3 ECharts快速上手/247
5.3.1 ECharts引入/247
5.3.2 准备DOM容器/248
5.3.3 柱状图示例/249
5.4 本章总结/249
附录/250
附录A 笔面试真题/250
作者简介
周炎亮,全栈数据分析师,北京化工大学工程管理硕士。拥有10多年的数据分析经验,擅长将各种业务问题转化为可量化的数学模型。先后在咨询公司、互联网公司担任数据分析师,现在某工业互联网公司担任高级数据分析经理,致力于解决工业领域的数据分析问题。 刘志全,博士,暨南大学网络空间安全学院副研究员、硕士生导师;近年来共在IEEE TITS、IEEE TDSC、IEEE IOTJ、IEEE TVT等国内外权威期刊/会议发表SCI/EI论文40余篇,申请/授权/公告国家发明专利/国外发明专利/PCT专利40余项。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
PREMIERE PRO 2023全面精通:视频剪辑+颜色调整+转场特效+字幕制作+案例实战
¥69.3¥99.0