数据分析实用教程
温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口有划线标记、光盘等附件不全详细品相说明>>
- ISBN:9787121408137
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:520
- 出版时间:2021-04-01
- 条形码:9787121408137 ; 978-7-121-40813-7
本书特色
SAS中国团队作品,清华、北大等高校之选,高校选此书作为教材可免费使用软件、数据集、课件等资源SAS中国团队作品,清华、北大等高校之选,高校选此书作为教材可免费使用软件、数据集、课件等资源推荐者序一在刚刚进入21 世纪的第二个十年,我们有一位研究生毕业以后加入了SAS 中国研发中心文本分析团队,由此,建立起了北京大学和SAS 之间的合作。我们经常会组织一些学术交流。SAS 总部领导到了北京以后,也会邀请我一同交流与沟通。那时候,社会上刚刚兴起大数据热,我们交流的题目都很热门,与以往其他企业的交流完全不一样。SAS 是世界领先的数据分析厂商,在这个领域已经有了几十年的历史,很多产品都是世界领先的。 经过一段时间的交流,我们之间有了很多的了解,我也在考虑为北京大学引入一门数据分析课程,把SAS 过去几十年的经验分享给同学们。2012 年上半年,我跟SAS 中国研发中心总经理刘政博士商量由他们在北京大学开设一门数据分析课程。刘政博士是SAS 中国研发中心总经理,负责SAS 全球三大研发中心之一的整体运作。刘政博士于2002 年回国,一直致力于提高中国高校在信息技术方面的教育水平。从 2003 年起,刘政博士参与了中国科学技术大学在北京的软件工程硕士项目的教学工作;在2012 年,他又积极推动开启了SAS 软件在中国高校的免费项目。当时,SAS 还没有为中国的大学提供免费的软件。 刘政博士开始跟美国总部进行沟通,经过几个月的不懈努力,SAS **个中国大学校园项目落户北京大学。 2012 年秋季学期,由SAS 中国研发中心总经理刘政博士带领的团队正式在北京大学信息科学技术学院开设研究生和本科生合上的公选课程“统计分析与商务智能”。这是SAS 公司首次与中国高校联合开设课程。该课程由一线高级工程师介绍前沿的大数据分析技术,受到了来自信息学院、数学学院、元培学院、光华管理学院、工学院等选课学生的广泛好评。2020 年已经是这门课程开设的第九个年头。随着大数据和人工智能的发展,会有越来越多的学生选修这门课程。 大数据是计算机应用和互联网发展带来的时代产物。它的出现让一切都有迹可循,有源可溯。我们每天都在生产和使用数据,而且我们一直都生活在一个大数据时代里,只是我们浑然不觉。由于技术的局限性,人们在很长一段时间里没有办法使用这些集容量大、种类多、增长速度快等特征于一身的全量数据。随着技术的发展与创新,大数据分析正在成为各行各业的**技能,以及企业管理和决策的重要依据。因此,大数据分析在生产活动中扮演着越来越重要的角色,很多新兴行业,譬如物联网、人工智能、金融科技、生命科学等都是建立在这一基础之上的。电商等互联网企业在拥有了海量的用户数据之后,开始着手开展各类数据分析工作,以支撑自身的电子商务、定向广告和影视娱乐等业务。面对快速增长的个人贷业务及不断变化的个贷市场环境和政策,某银行基于大数据分析突破了传统审批流程和风险控制过程中的业务发展“瓶颈”,在市场竞争中迅速准确地制定相关的贷款政策,量化控制风险率、批准率。零售企业通过大数据建立用户画像,并监控营销活动的实时数据,确定*佳营销方案,实现精准营销。制造行业通过收集流水线上各种仪器的参数数据,找到更优的工艺参数,从而降低生产成本,提高生产效率。这些具有大数据分析战略和能力的企业终将在市场上占据主动。 大数据分析战略着眼于对数据进行专业化处理,其重点应在“分析”二字,而不仅仅是获取海量数据。当前有关大数据的信息繁多,谈的问题都不太系统,谈技术的多,谈分析的少。如何进行有效的数据处理、分析,找出数据内部蕴含的模式和规律才是大数据分析的根本。而数据分析能力的强弱将直接影响一个企业对数据的使用情况,也能反映其在市场上的竞争力。猎聘2019 年大数据人才就业趋势报告显示:中国大数据人才缺口高达150 万人,其中需要具备行业背景知识的大数据分析行业,如金融领域的数据分析行业,尚未完全开启的人工智能、物联网、智慧城市等新兴行业,未来将有大量的人才需求。海量信息的搜索、实时通信工具的信息传递、引发亿级流量的电商购物、亿万游戏玩家的数据信息处理、互联网金融的风险控制等,都需要大量的数据分析人才。所以数据分析人才正在成为这个时代的宠儿。 大数据分析不仅涉及计算机软件开发领域的专业技能,还涉及数学和统计相关学科的理论知识。在时代需求的背景下,北京大学信息科学技术学院与SAS 中国研发中心自2012 年起展开合作,成功开设了运用SAS 进行数据处理、数据分析的课程,为北京大学各专业的学生提供了学习并实践数据分析的机会。SAS 公司专门为该课程提供了免费使用的商业软件。该课程很好地结合了数据分析的理论知识、实用案例分析、软件使用和程序编写,给学生创造了一个深入浅出的学习曲线。借此契机,SAS 中国研发中心的教师秉持SAS 在数据分析领域的专注和严谨,通过总结日常学生的课堂反馈和学习成果,不断改进课程内容编排并适时地与当前大数据分析的趋势相结合,经过几个月的精心编写,完成了《数据分析实用教程》一书。 本书着眼于实战,汇集了统计学、多元统计学和SAS 编程分析技术的核心要点,以清晰的学习脉络为引导,并辅以贯穿各种分析案例的简洁的分析代码。本书开篇生动有趣地介绍了统计学代表人物的故事,向读者描绘了一幅清晰完整的统计学发展历程,对多种统计思维模式做了集中介绍,为接下来的统计学基本概念、描述性统计、推断性统计等内容的讲解奠定了基础。本书以方差分析、相关分析与回归分析、Logistic 回归、主成分分析与因子分析、聚类分析、判别分析、时间序列分析为重点,介绍了各类分析的基本思想和概念;结合实际案例数据和详细的分析过程,对分析思想进行了全面细致的介绍,使统计分析的理论知识和现实应用相呼应,具有很强的可操作性,易于理解和研习。 作者融入了多年的统计分析经验,总结了不同分析方法之间的特点,对各方法的应用场景和注意事项提出了独到的见解,通过大量统计分析图形和细致的分析报告展示了重点内容,并辅以SAS 程序的分析结果对前面的知识点进行了印证。更难能可贵的是,即使没有任何SAS 编程经验的初学者,也能通过自学开始一段奇妙的SAS 数据分析之旅。 本书配套提供了完整的课件、练习数据和课后实践代码,为使用本书的授课教师节省了大量时间。同时授课高校可以获得SAS 公司的软件支持,方便师生使用。对于自学的读者,该书提供了SAS 免费软件SAS University Edition 的专题介绍,读者可以按照操作步骤自行搭建SAS 软件的运行环境,通过运行教程中的SAS 程序或自行编写的程序,真正做到理论与实践相结合。 本书用翔实的内容、独到的实践总结和完备的课件,充分展现了作者的诚意和对推动数据分析人才建设的初心,旨在为有志成为新一代数据分析人才的读者提供一本高效实用的学习教程,帮助他们在大数据分析的浪潮中积蓄力量。根据我八年来与SAS 团队的合作经验,这是一本值得推荐的好书。 北京大学教授张铭博士 推荐者序二谈到“统计学”一词的由来,人们往往会追溯到300 多年前欧洲对国势学的研究,但如果讨论广义统计概念(包括计数、汇总等含义)的应用,其历史应该远早于城邦的出现,甚至可以追至远古。统计伴随着人类计数记事的需求,一路走来成为人们生产和生活中不可或缺的工具。四大文明古国都无一例外地留下了运用统计方法治国理政的印迹。随着回归分析和相关分析、假设检验、? 2分布和t 分布等理论的出现,现代数理统计学逐渐发展成为一门完整的学科。人们的关注点也从计数统计、描述统计逐渐转向推理统计、预测统计。根据不同应用对象的特征,统计学又衍生出社会统计学、生物统计学等不同分支。 与其他学科一样,统计学一直在发现和研究现实世界(自然的、社会的)的规律,并逐渐向学术研究和实践应用两个方向发展。与其他学科不一样的是,统计学以概率论为基础,从诞生起就有着定性“精准”、定量“模糊”的特征。在小数据时代,数据采集成本很高,计算能力受限,人们不得不探索用部分样本数据来推断整体,用科学的手段减少样本选择偏差,不断提高置信度。 21 世纪初,大数据技术浪潮扑面而来,计算能力、传输能力、存储能力都有了大幅度提高,数据的采集成本、传输成本、存储成本及计算成本都在迅速降低,对社会生活中的数据规律的探究也迎来了新的机遇与挑战。曾一度有人议论,既然我们已经有能力关注全量数据而不再只是关注抽样数据,那就不再需要统计学了。事实并非如此。宇宙是无限的,而人类的认识是有限的。人类一直在试图用数据逼近事实真相,大数据时代只是赋予了人们增加数据维度和细化数据颗粒度的能力,使人们有机会更接近事实真相而已。哪有什么绝对的全量数据!人们能采集、能计算的数据不论是维度还是颗粒度永远都是有限的。人类的计算能力永远赶不上数据的增长速度,统计学通过对有限的数据进行分析,用以呈现更大范围内有统计意义的事实,其方法论在大数据时代依然有学习、借鉴和应用的价值。特别是对统计学中建模思想的借鉴,是未来大数据分析师的基本技能。 在过去一段时间里,由于政策导向,学院派以发表学术文章为目的的统计学和应用统计日渐脱节,从高校统计学教科书的内容组织上看也是重理论、轻实践。近年来,国家越来越重视“产教融合”“产研融合”,旨在改变学术脱离实践的现象。科技是**生产力,越是经济下行压力大的时候,越要让学术为生产力服务,为实业赋能。在我国,人才短缺是困扰大数据发展的问题之一。传统教学内容跟不上科技的发展,跟不上社会的需求,学生的能力结构就出现了偏差。因此,需要在教授统计学的一招一式时与实践相结合。《数据分析实用教程》正是在这样一个背景下面世的。 本书由刘政博士领衔组织撰写。刘政博士的应用统计学功底深厚,任职SAS 软件研究开发(北京)有限公司总经理多年。我有幸邀请刘政博士担任清华大学大数据硕士项目教育指导委员会主任,并请他为跨专业跨领域的大数据硕士项目学生讲授“数据分析与优化建模”课程。这是一项极具挑战性的任务,因为大数据硕士项目的学生来自不同的专业(相关统计数据显示全校44 个院系都有学生参加该项目),有着不同的教育背景和知识结构,而且这个项目要求突显实践应用,教学难度很大。 刘政博士及其团队在面对北大、清华两所高校不同教学要求的情况下,积累了高校的统计学教学经验,加之对产业应用的深刻理解,确立了本书的定位。本书不仅较为全面地涵盖了统计分析的相关内容,而且附以丰富的应用案例,有理论、有实践,让读者能够学以致用。本书既可以作为教科书,也可以当成工具书。 为本书写推荐者序时,正值新冠肺炎猖獗,居家隔离,思绪万千。我们以为大数据可以把我们武装起来,变得无敌。突如其来的灾害告诉了我们自身的脆弱,人类还有很多未知的东西等待我们探索。同17 年前的SARS 相比,随着城镇化的推进,交通的发达,同是以空气传播为主的传染病,但其扩散模型一定是不同的,相应的防控措施也要有所不同。有很多灾中、灾后的宝贵数据等着我们去分析、去利用。 大数据时代无疑为人类带来了观察事物的全新视角,给各产业、各领域的发展带来了新的机遇。大数据人才知识结构中重要的组成部分就是数理统计能力和数据建模能力。对于想在大数据时代“建功立业”的在校学生或已走上社会的新生代,学习本书都将大有裨益。 清华大学数据科学研究院原执行副院长韩亦舜
内容简介
本书共 14 章,内容涵盖:统计学的基本概念、推断性统计的相关理论和实例、方差分析、相关分析与回归分析、Logistic 回归、主成分分析与因子分析、聚类分析、判别分析、时间序列分析、SAS 编程基础、宏的概念和应用原理及上机练习指导。本书内容全面,汇集了统计学、多元统计学和 SAS 编程技术的核心内容。本书针对不同的实战案例进行分析和总结,并展示了程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。本书可作为各行业数据分析师的应用参考书、开设数据分析课程的高校中的教师讲义,以及希望进入数据分析领域的人员的自学读物。
目录
第1 章 描述性统计 . 1
1.1 统计学的发展历史 1
1.2 统计学的基础知识 4
1.3 连续型随机变量的概率分布 18
1.4 概率与二项分布 26
1.5 两大极限定理 33
1.6 数据类型与图示 38
第2 章 推断性统计:参数估计 45
2.1 推断性统计概述 45
2.2 点估计 46
2.3 区间估计 54
第3 章 推断性统计:假设检验 69
3.1 假设检验 69
3.2 参数检验 76
3.3 置信区间检验和P 值检验 91
3.4 非参数检验 94
3.5 非参数检验——符号检验法 95
3.6 非参数检验——秩和检验 98
第4 章 方差分析 108
4.1 方差分析的提出 108
4.2 单因素方差分析 111
4.3 双因素方差分析的概念及其基本假定 123
4.4 多因素方差分析 132
第5 章 相关分析与回归分析 140
5.1 相关分析 140
5.2 回归分析 150
5.3 简单线性回归 150
5.4 多元线性回归 159
5.5 可变换为线性回归的曲线回归 174
第6 章 Logistic 回归 175
6.1 交叉表分析 175
6.2 一元Logistic 回归 184
6.3 多元Logistic 回归 192
6.4 有交互效应的多元Logistic 回归 196
第7 章 主成分分析与因子分析 202
7.1 主成分分析的概念与原理 202
7.2 主成分分析SAS 实例 209
7.3 因子分析 219
7.4 因子分析SAS 实例 227
第8 章 聚类分析 234
8.1 聚类与分类的区别 234
8.2 案例:消费者分类问题 234
8.3 聚类分析概述 235
8.4 层次聚类 240
8.5 K 均值聚类 246
8.6 确定聚类数 256
第9 章 判别分析 266
9.1 判别分析基础 266
9.2 距离判别法 269
9.3 贝叶斯判别法 279
9.4 Fisher 判别法 301
第10 章 时间序列分析 310
10.1 时间序列基础 310
10.2 描述性分析与预测方法 315
10.3 平稳序列的预测 327
10.4 趋势序列的预测 335
10.5 复合序列的预测 351
第11 章 SAS 编程基础 375
11.1 SAS 基础 375
11.2 使用SAS 分析数据 387
11.3 SAS 处理数据集原理 413
第12 章 SAS 编程进阶 423
12.1 读取原始数据(文本)文件 423
12.2 访问Excel 工作表 436
12.3 创建自定义格式 438
12.4 使用SAS 函数 440
12.5 有条件处理 451
12.6 PROC SQL 简介 453
第13 章 SAS 宏编程 458
13.1 SAS 宏简介 458
13.2 熟悉SAS 宏变量 459
13.3 如何编译宏语言 469
13.4 宏程序简介 474
13.5 在数据操作中使用宏(案例研究) 479
13.6 间接引用宏变量 494
第14 章 SAS Enterprise Guide 操作应用 497
14.1 SAS Enterprise Guide 简介 497
14.2 SAS Enterprise Guide 上机练习 498
节选
推荐者序二 谈到“统计学”一词的由来,人们往往会追溯到300 多年前欧洲对国势学的研究,但如果讨论广义统计概念(包括计数、汇总等含义)的应用,其历史应该远早于城邦的出现,甚至可以追至远古。统计伴随着人类计数记事的需求,一路走来成为人们生产和生活中不可或缺的工具。四大文明古国都无一例外地留下了运用统计方法治国理政的印迹。随着回归分析和相关分析、假设检验、c 2分布和t 分布等理论的出现,现代数理统计学逐渐发展成为一门完整的学科。人们的关注点也从计数统计、描述统计逐渐转向推理统计、预测统计。根据不同应用对象的特征,统计学又衍生出社会统计学、生物统计学等不同分支。 与其他学科一样,统计学一直在发现和研究现实世界(自然的、社会的)的规律,并逐渐向学术研究和实践应用两个方向发展。与其他学科不一样的是,统计学以概率论为基础,从诞生起就有着定性“精准”、定量“模糊”的特征。在小数据时代,数据采集成本很高,计算能力受限,人们不得不探索用部分样本数据来推断整体,用科学的手段减少样本选择偏差,不断提高置信度。 21 世纪初,大数据技术浪潮扑面而来,计算能力、传输能力、存储能力都有了大幅度提高,数据的采集成本、传输成本、存储成本及计算成本都在迅速降低,对社会生活中的数据规律的探究也迎来了新的机遇与挑战。曾一度有人议论,既然我们已经有能力关注全量数据而不再只是关注抽样数据,那就不再需要统计学了。事实并非如此。宇宙是无限的,而人类的认识是有限的。人类一直在试图用数据逼近事实真相,大数据时代只是赋予了人们增加数据维度和细化数据颗粒度的能力,使人们有机会更接近事实真相而已。哪有什么绝对的全量数据!人们能采集、能计算的数据不论是维度还是颗粒度永远都是有限的。人类的计算能力永远赶不上数据的增长速度,统计学通过对有限的数据进行分析,用以呈现更大范围内有统计意义的事实,其方法论在大数据时代依然有学习、借鉴和应用的价值。特别是对统计学中建模思想的借鉴,是未来大数据分析师的基本技能。 在过去一段时间里,由于政策导向,学院派以发表学术文章为目的的统计学和应用统 计日渐脱节,从高校统计学教科书的内容组织上看也是重理论、轻实践。近年来,国家越来越重视“产教融合”“产研融合”,旨在改变学术脱离实践的现象。科技是**生产力,越是经济下行压力大的时候,越要让学术为生产力服务,为实业赋能。在我国,人才短缺是困扰大数据发展的问题之一。传统教学内容跟不上科技的发展,跟不上社会的需求,学生的能力结构就出现了偏差。因此,需要在教授统计学的一招一式时与实践相结合。《数据分析实用教程》正是在这样一个背景下面世的。 本书由刘政博士领衔组织撰写。刘政博士的应用统计学功底深厚,任职SAS 软件研究开发(北京)有限公司总经理多年。我有幸邀请刘政博士担任清华大学大数据硕士项目教育指导委员会主任,并请他为跨专业跨领域的大数据硕士项目学生讲授“数据分析与优化建模”课程。这是一项极具挑战性的任务,因为大数据硕士项目的学生来自不同的专业(相关统计数据显示全校44 个院系都有学生参加该项目),有着不同的教育背景和知识结构,而且这个项目要求突显实践应用,教学难度很大。 刘政博士及其团队在面对北大、清华两所高校不同教学要求的情况下,积累了高校的统计学教学经验,加之对产业应用的深刻理解,确立了本书的定位。本书不仅较为全面地涵盖了统计分析的相关内容,而且附以丰富的应用案例,有理论、有实践,让读者能够学以致用。本书既可以作为教科书,也可以当成工具书。 为本书写推荐者序时,正值新冠肺炎猖獗,居家隔离,思绪万千。我们以为大数据可以把我们武装起来,变得无敌。突如其来的灾害告诉了我们自身的脆弱,人类还有很多未知的东西等待我们探索。同17 年前的SARS 相比,随着城镇化的推进,交通的发达,同是以空气传播为主的传染病,但其扩散模型一定是不同的,相应的防控措施也要有所不同。有很多灾中、灾后的宝贵数据等着我们去分析、去利用。 大数据时代无疑为人类带来了观察事物的全新视角,给各产业、各领域的发展带来了新的机遇。大数据人才知识结构中重要的组成部分就是数理统计能力和数据建模能力。对于想在大数据时代“建功立业”的在校学生或已走上社会的新生代,学习本书都将大有裨益。 清华大学数据科学研究院原执行副院长 韩亦舜
作者简介
刘政博士 SAS中国研发中心总经理,负责此全球研发中心的整体运作;19年的外资企业经营和项目管理经验,丰富的信息技术和数据科学教育经验;中国软件行业协会理事,中国计算机学会大数据专家委员,清华大学大数据硕士项目教育指导委员会主任,中科院深圳先进技术研究院硕士研究生导师,北京大学、清华大学、中国科学技术大学讲席教授。 巫银良 SAS 中国研发中心技术总监,主要负责SAS 可视化分析(VA)、可视化数据挖掘与机器学习(VDMML)、商业智能和移动应用等产品线的研发管理。拥有近20年的计算机行业研发和管理经验,在企业应用和商业数据分析领域有着深厚的技术功底,著有《SAS技术内幕:从程序员到数据科学家》(2018)一书。北京大学《统计分析与商务智能》课程主讲。 左春琦 SAS中国研发中心自然语言处理软件开发工程师。北京大学、清华大学数据分析课程助理讲师。SAS中国数据分析大赛出题委员会委员。 李岚 SAS中国研发中心测试经理。十余年软件研发测试经验,涉及商业智能、数据分析、可视化展现、机器学习等各领域。北京大学《统计分析与商务智能》课程SAS编程讲师。 马晓丽 SAS 中国研发中心项目经理。十余年软件开发和项目管理经验,熟悉SAS风险管理解决方案以及SAS编程。清华大学《数据分析与优化建模》课程SAS编程讲师。参与SAS Little Book中文版翻译。
-
全图解零基础word excel ppt 应用教程
¥15.6¥48.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥12.7¥39.8 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
情感计算
¥66.8¥89.0 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥48.3¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
LINUX实战——从入门到精通
¥48.3¥69.0 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
Go 语言运维开发 : Kubernetes 项目实战
¥38.7¥79.0