×
非参数统计——基于Python(基于Python的数据分析丛书)

非参数统计——基于Python(基于Python的数据分析丛书)

1星价 ¥29.4 (6.0折)
2星价¥29.4 定价¥49.0
暂无评论
图文详情
  • ISBN:9787300301495
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:312
  • 出版时间:2022-06-01
  • 条形码:9787300301495 ; 978-7-300-30149-5

内容简介

非参数统计是统计学和数据科学的重要分支领域。本书作为该领域的基础教材,其特点体现在以下几方面:
1.针对性强。本书针对数据分析专业的特点和需要,阐述非参数统计的基本概念、理论、方法和编程,重点从非受控观察数据对参数推断知识的需要角度出发,将统计推断知识、理论和方法与反事实复杂场景因果关系的解读与判断问题相结合,应用于稳健估计、局部模式、严格证据的信息提取任务中。
2.通用性强。适用于Python技术数据管理人才培养。增加Python技术的应用内容,编写了Python综合程序,降低了统计理论学习难度,增强了技术的可嵌入性;自主研发的准确分析求解程序,大大补充了Python中小数据推断程序的不足,计算的便利性大幅提升,适用于Python自动化测试、运维、数据分析等多种高端数据管理岗位的嵌入式学习需求。
3.内容新颖。顺应人工智能时代发展和数据分析大环境的变化,对特征工程有效降噪及控制错误发现率等方面的内容作了阐述与分析,针对深度学习对图像应用的需求增加,增加了深度学习的内容。

目录

第 1章 基本概念 1.1非参数统计的概念与产生 1.1.1 非参数统计的研究对象 1.1.2 非参数统计简史 1.2假设检验回顾 1.3经验分布和分布探索 1.3.1 经验分布 1.3.2 生存函数 1.4检验的相对效率 1.5分位数和非参数估计 1.5.1 顺序统计量 1.5.2 分位数的定义 1.5.3 分位数的估计 1.5.4 分位数的图形表示 1.6秩检验统计量 1.6.1 无重复数据的秩及性质 1.6.2 带结数据的秩及性质 1.7 U统计量 1.7.1 单一样本的U统计量和主要特征 1.7.2 两样本 U检验统计量和分布 习题 第 2章单变量位置推断问题 2.1符号检验和分位数推断2.1.1基本概念 2.1.2大样本的检验方法 2.1.3符号检验在配对样本比较中的应用 2.1.4分位数检验――符号检验的推广 2.2 Cox-Stuart趋势存在性检验 2.2.1*优权重Cox-Stuart统计量基本原理 2.2.2无权重Cox-Stuart统计量 2.3随机游程检验 2.3.1两类随机游程检验 2.3.2三类及多类游程检验 2.4 Wilcoxon符号秩检验 2.4.1基本概念 2.4.2 Wilcoxon符号秩检验和抽样分布 2.5估计量的稳健性评价 2.5.1敏感曲线 2.5.2影响函数 2.5.3失效点 2.6单组数据的位置参数置信区间估计2.6.1顺序统计量位置参数置信区间估计 2.6.2基于方差估计法的位置参数置信区间估计 2.7正态记分检验 2.8分布的一致性检验 2.8.1 χ2拟合优度检验 2.8.2 Kolmogorov-Smirnov正态性检验 2.8.3 Liliefor正态分布检验 2.9单一总体渐近相对效率比较 习题 第3章 两独立样本数据的位置和尺度推断 · 3.1 Brown-Mood中位数检验 3.1.1假设检验问题 3.1.2大样本检验 3.2 Wilcoxon-Mann-Whitney秩和检验 3.2.1无结点Wilcoxon-Mann-Whitney秩和检验 · 3.2.2带结点时的计算公式 3.2.3 MX . MY的点估计和区间估计 3.3 Mann-Whitney U统计量与ROC曲线 3.4置换检验3.5 Mood方差检验3.6 Moses方差检验 习题 第4章 多组数据位置推断 4.1试验设计和方差分析的基本概念回顾 4.2多重检验问题 4.2.1 FDR控制基本原理 4.2.2 FDR的相关讨论 4.3高阶鉴定法(HC) 4.4 Kruskal-Wallis单因素方差分析 4.4.1 Kruskal-Wallis检验的基本原理 4.4.2有结点的检验 4.5 Jonckheere-Terpstra检验 4.5.1无结点Jonckheere-Terpstra检验 4.5.2带结点的Jonkheere-Terpstra检验 4.6 Friedman秩方差分析法 4.6.1 Friedman检验的基本原理 4.6.2 Hollander-Wolfe两处理间比较 4.7随机区组数据的调整秩和检验 4.8 Cochran检验4.9 Durbin不完全区组分析法习题 第5章 分类数据的关联分析 5.1 r×s列联表和χ2独立性检验 5.2 χ2齐性检验 5.3 Fisher精确性检验 5.4 McNemar检验 5.5 Mantel-Haenszel检验 5.6关联规则5.6.1关联规则基本概念 5.6.2 Apriori算法 5.7 Ridit检验法 5.7.1 Ridit得分的计算和假设检验 5.7.2 根据置信区间分组 5.8对数线性模型 5.8.1泊松回归 5.8.2对数线性模型的基本概念 5.8.3模型的设计矩阵 5.8.4模型的估计和检验 5.8.5高维对数线性模型和独立性习题 第 6章 秩相关和稳健回归 · 6.1 Spearman秩相关检验6.2 Kendallτ相关检验 6.3多变量Kendall协和系数检验 6.4 Kappa一致性检验 6.5 HBR基于秩的稳健回归 6.5.1基于秩的R估计 6.5.2假设检验 6.5.3多重决定系数 CMD 6.5.4回归诊断 6.6中位数回归系数估计法 6.6.1 Brown-Mood方法 6.6.2 Theil方法 6.6.3关于α和 β的检验 6.7线性分位回归模型习题第7章 非参数密度估计 7.1直方图密度估计 7.1.1基本概念 7.1.2理论性质和*优带宽 7.1.3多维直方图 · 7.2核密度估计7.2.1核函数的基本概念 7.2.2理论性质和带宽 7.2.3置信带和中心极限定理 7.2.4多维核密度估计 7.2.5贝叶斯决策和非参数密度估计 7.3 k近邻估计 习题 第8章 非参数回归 8.1核回归光滑模型 8.2局部多项式回归 8.2.1局部线性回归 8.2.2局部多项式回归的基本原理 8.3 LOWESS稳健回归 8.4 k近邻回归 8.4.1 k近邻估计 8.4.2 k近邻核估计 8.5正交序列回归 8.6罚*小二乘法 8.7样条回归8.7.1模型 8.7.2 样条回归模型的节点 8.7.3 常用的样条基函数 8.7.4 样条模型自由度 习题 第9章 数据挖掘与机器学习 9.1分类一般问题 9.2线性判别IR-LDA基本原理 9.3 Logistic回归 9.3.1 Logistic回归模型 9.3.2 Logistic回归模型的极大似然估计 9.3.3 Logistic回归和线性判别函数LDA的比较 9.4 k近邻 9.4.1 参数选择与维数灾难9.4.2 k近邻与线性模型之间的比较 9.5决策树9.5.1决策树的基本概念 9.5.2 CART 9.5.3决策树的剪枝 9.5.4回归树 9.5.5决策树的特点 9.6 Boosting 9.6.1 Boosting提升方法 9.6.2 AdaBoost.M1算法 9.7支持向量机9.7.1*大分类间隔 9.7.2支持向量机问题的求解 9.7.3支持向量机的核方法 9.8随机森林9.8.1随机森林算法的定义 · 9.8.2随机森林算法的性质 9.8.3如何确定随机森林算法中树的节点分裂变量 9.8.4随机森林的回归算法 9.8.5有关随机森林算法的一些评价9.9 MARS 9.9.1 MARS与 CART的联系 9.9.2 MARS的一些性质 9.10深度学习 9.10.1神经网络 9.10.2卷积神经网络 习题附录 Python基础参考文献
展开全部

节选

如果读者仅仅将非参数统计看成是关于数据分析的 ,那就错了 ,非参数统计更多的是展开对数据更深层的分析 ,这就需要在由精致的计算和细致的操作所构成的更大的数据科学社群平台上,增强统计思维和分析认知的基本功。在数据分析实践中 ,如果将模型根据研发的成熟度分为起步期、发展期和成熟期三个阶段,我们可以将模型里的信息分为参数信息和非参数信息。处在起步期的模型里参数信息的成分比较多 ,一般包括由样本所估计出的位置参数 (如均值 )、波动性参数 (如方差和相关度 )等信息 ,较为成熟的模型和算力中 ,非参数信息则更多一些 ,发展期的模型是由参数信息不断向非参数信息过度的过程。非参数信息能体现模型设计的功底 ,包含相容性、秩序、分位数、信噪比、对称性、稳健性、失效性、是否一致性等丰富的分析维度。如果想通过手中的数据对模型进行 “二度创作 ”使其成为独树一帜的信息提取模式 ,需要培养对数据的敏锐性、数据收集的知识、数据的分析与处理技能、利用数据进行决策、对数据的批判性思维和数据伦理等专业分析能力 ,参数统计和非参数统计的共同作用尤为重要 ,缺一不可。 Python语言在高并发场景中的运用能力、简洁可解释性的语言特点、丰富且快速生长的跨平台标准库和第三方库 ,都更有利于传递关于科学的认知与思考 ,加速与计算机进行关于人类创造和累积的文化精神财富的对话与交流。这就是我在本书中选择 Python的基本理由。在 Python里践行,以 Python取效。全书内容分为两个部分 :非参数统计推断和非参数统计模型。非参数统计推断的内容由单一变量、两变量及多组数据非参数统计估计、多重检验、分类数据的关联分析方法、定量数据的相关和稳健回归等分析方法构成 ;非参数统计模型部分包括非参数密度估计、稳健回归和非参数回归等内容。本书具有如下特点: (1)全面对接Python语言编程 ,习题和思考题中增加了具有复杂样态的一手数据和分析习题,用于提高学生对统计建模的分析能力,增强学生对复杂数据的辨析能力。 (2)有教学资源和官方网站支持。教学资源中有参考课件、程序代码、参考习题、扩展阅读、中国大学 MOOC (慕课 )国家精品课程在线学习平台等 ,教材的每一章还陪有微课精品短视频 ,点击二维码可以获取下载使用这些资源。该教材曾获得过中国人民大学**批探究性教学课程立项支持 ,受 2018, 2019年度中央高校建设世界一流大学 (学科 )和特色发展引导专项资金 (教材类 )和中国人民大学 “十三五 ”规划教材支持。教师在教学过程中可围绕相关知识从网站上获取延展性学习材料 ,比如知识点中的历史人物、重要事件理论的推证过程、相关文献、应用技术等。这些辅助学习资源也会不断更新 ,以适用于研讨型和协作型学习和教学。本书可作为高等院校统计学、经济学、管理学、生物学、信息科学、大数据分析等专业领域本科三、四年级以上学生以及相关研究人员学习非参数统计方法的教材 ,也可作为从事统计研究或数据分析工作人员的案头参考书 .本书的读者需具备初等统计学基础、概率论和数理统计的相关知识。本书的内容建议安排在一学期 54课时内完成 ,且安排 1/3左右课时用于学生上机实验。有条件的教师可以选择教材部分案例组织案例教学和课堂讨论。 2017年和 2018年连续两年 ,我们在中国人民大学统计学专业大三课堂上尝试了案例教学 ,获得了学生们的高度认可。事实证明 ,通过案例探究和团组讨论 ,学生们会形成一股深入研究、严谨辨析、开拓创新的统计学课堂新风。本书备有丰富的习题 ,理论推导、方法应用和上机实验题目 ,可灵活支持各种教学需要。

作者简介

王星 中国人民大学统计学院教授,北京师范大学数学本科与硕士,中国人民大学统计学博士。国家社科基金重点项目负责人,《中国大百科全书》第三版统计学卷编委。在《统计研究》《中国人民大学学报》《数理统计与管理》和JAMA等刊物发表多篇论文。主要研究方向包括稀疏网络挖掘模型、高维复杂数据统计学习、深度学习等。主要著作和译作包括《非参数统计》《大数据分析:方法与应用》《人文社会科学文献网络知识模型与应用》《统计学习导论一基于R应用》等。讲授课程包括非参数统计、大数据分析、机器学习方法等。曾获北京市高等教育教学成果奖二等奖、第十届全国统计科学研究优秀成果奖二等奖、全国应用统计案例大赛一等奖指导教师等学术奖励;开设非参数统计MOOC课程。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航