×
暂无评论
图文详情
  • ISBN:9787111775881
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:32开
  • 页数:暂无
  • 出版时间:2025-03-01
  • 条形码:9787111775881 ; 978-7-111-77588-1

本书特色

本书力求用丰富的实际案例来介绍数据科学的工具以及它的应用,特别是通过数据来判断事件的真伪,教会读者像数据科学家一样的思考。

内容简介

本书力求用丰富的实际案例来介绍数据科学的工具以及它的应用,特别是通过数据来判断事件的真伪,教会读者像数据科学家一样的思考。
全书共17章,每章均包含具有不同侧重点的案例分析,用以说明数据科学家如何发现似实,并拒绝似实伤害。本书内容主要分为四部分,前7章为第1部分,描述如何质疑、审查证据,如何收集、分析并处理缺失数据,避免数据操控等。第2部分为第8~11章,讨论数据呈现中的问题并通过创新方法取得研究新发现。第3部分为第12~17章,聚焦教育领域,再次利用证据证明了发现似实谬误之易。第4部分为结论。
本书是数据科学的应用研究成果,可作为数据科学爱好者的科普读物。

前言

回顾20世纪,世界经历了翻天覆地的变化,但鲜能让我感到惊讶,其中就有人们对我的专业——统计学(不确定性科学)的态度转变。我这大半辈子听到*普遍的对统计学的形容就是“无聊”。我教授了50多年的统计学课程,然而时至今日学生们修读这门课的原因依然是因为“统计学是必修课”。不过,统计学沉闷的名声也会给我带来些小庆幸。比如,我在飞机上沉迷阅读时,每当有邻座问我:“您是做什么的?”,我总是回答:“我是搞统计学的”,这样就能确信对话多半会戛然而止,而我则可以安心读书了!实际上,几十年前,当大家日益认识到统计学家是现代信息时代的科学通才时,专业研究者的态度就已经开始发生转变。普林斯顿大学的约翰·图基(John Tukey)早期从数学研究转到统计学研究,他曾说过这样一句让人印象深刻的话:“作为统计学家,我可以在每个学科的后院溜达”。
统计学*初起源于赌场里不见光地应用概率论,但之后作为一门学科却在人口统计学、农学和社会科学领域中大放异彩,然而,这还仅仅是个开始。量子理论的兴起表明,即使是物理学——这门*具确定性的学科,也需要了解不确定性。随着“循证医学”成为专有名词,医学也加入这一行列。结合了民意调查的预测模型让我们可以早早睡下,毫无悬念地预测选举结果。随着“量化分析专家”加入投资团队,经济和金融领域都发生了巨大改变,他们的成功清楚地表明投资计划的设计如果忽视了背后的数据统计,无疑是自投风险罗网。

目录

导读
译者序
前言与致谢
引言
第1部分像数据科学家一样思考
第1章72法则用于财富、事业和汽车油耗/4
ⅩⅫ
指数增长是人类直觉无法理解的。在本章中,我们从历史和当前经验中抽取了几个例子来进行说明,并介绍了常用于帮助理财师理解指数增长的一则简单的经验法则,同时展示了如何更广泛地使用它解释一系列其他问题。72法则说明了在工具箱中常备这样的“规则”以备不时之需是多么重要!
第2章钢琴大师与4分钟1英里的记录/9
极端观察记录出现的频率与观察样本规模必然相关。在过去的一个世纪里,音乐大师的数量激增,这其中包括了大量的高中生演奏者,他们能够演奏过去除了*有才华的艺术家之外其他人都不敢挑战的作品。在这一章,我们发现用一个简单的数学模型就能解释这一结果,以及为什么跑步运动员突破了4分钟1英里的成绩不再是新闻。
第3章幸福与因果推理/13
这里我们将介绍鲁宾的因果推理模型,它指导我们集中精力衡量一个变量对另一个变量的因果效应,而不是通过捕风捉影盲目寻找产生该效应的原因。这种重新定位使我们自然而然地将随机的控制性实验作为一种重要的科学方法。为说明该方法的作用,我们阐述了如何利用它解开缠绕在幸福感和学业表现之间难解的戈尔迪之结。它如同一束强劲的光,照亮了无根据主张的阴暗角落。
目录
第4章因果推理与死亡/20
在现实中,计算因果效应大小的道路因为无处不在的数据缺失而变得坎坷。本章将讨论经常发生的意外事件导致精心设计的实验失衡的具体情况。我们列举了一个医学实验案例,由于一些病患在实验进程中不幸去世,我们必须排除这些干扰数据,估算出治疗的因果效应。鲁宾模型又一次帮助我们找到了解决方案,一旦你掌握它,它的指引会出乎意料地显著而又细致微妙。
ⅩⅩⅢ
第5章实验回答四个恼人的问题/33
公共教育领域需要采用多种有效方法来进行因果推理。然而,我们发现围绕公共教育话题到处充斥着似实。由于公共教育的有效性常通过测试进行衡量,因此,出现与测试相关的许多话题并不奇怪,然而问题双方的激烈争论往往压倒了事实。我们讨论了四个问题,有的已经在法庭上被裁定了(非决定性裁决),还有一些在本章编写的过程中正进入诉讼程序。
第6章观察研究中的因果推论:压裂法、注入井、地震以及俄克拉荷马州/50
开展实验并不一定总是可行的,我们有时不得不进行观察研究。在过去的6年中,俄克拉荷马州的较强地震(30级或以上)从每年不到2次增加至几乎每天2次。在本章中,我们将探讨如何利用观察研究来估算压裂法以及高压注水处理废水与地震活动的因果效应。尽管政府官员和石油工业代表极力否认,但这种因果关系的证据却是压倒性的。
ⅩⅩⅣ
第7章生活中的艺术:玩转缺失数据算法/61
数据科学家们面临的*大问题是如何处理缺失的观测值(或者缺失数据)。在这一章,我们了解到那些*初用来处理不可避免的数据缺失的方法看起来似乎完全合情合理,却被不适当地利用来钻体系的漏洞。另外,本章还说明了如何用*有效的方法来处理这些闹剧。
第2部分像数据科学家一样沟通
第8章共情在沟通设计中的关键作用:以基因测试为例/70
图形显示也许是数据科学所拥有的*重要的工具,能让数据自己向数据科学家传递其蕴含的意义。它们让科学家与所有人都能畅通地交流。迄今,任何希望能有效沟通的人都应具备一个*重要的态度,那就是要有强烈的同理心。在这一章中,我们讨论了两种不同的交流方式,并展示了从普林斯顿大学录取通知书中学到的道理,如何有效地用于传达显示携带突变基因、警示女性患癌风险高的检测结果。
第9章改进媒体和我们自己的数据呈现/79
在科学家和大众之间的交流中,两者的影响是双向的。我们看到科学文献首创的图形显示方法被媒体所使用;如今,反过来,科学家们却不得不缓慢地去追赶媒体进步的脚步了。
第10章由内而外的图表/95
高维数据(涉及两个以上变量的数据)的可视化显示,*大的设计挑战之一就是二维平面载体(一张纸或一个电脑屏幕)的局限性。在这一章中,我们将说明如何使用由内而外的图示来揭示这些数据集中可能包含的许多秘密。我们通过例子比较了6位棒球明星在8个变量上的表现。
ⅩⅩⅤ
第11章150年的道德统计:绘制证据以影响社会政策/104
任何将地理变量与其他指标(比如各州选举结果或人口普查区域各区人口)相结合的数据集都亟需一张地图。地图是*古老的图形显示,现存的例子有来自古埃及尼罗河测量绘制的地图。地图显然更方便直观表示位置,使用二维的绘图平面来表示地理信息。过了很久之后,人们才在地理背景上添加了许多其他非地理变量。在本章中,我们引用了19世纪英国律师和统计学家约瑟夫·弗莱彻的作品,他在英格兰和威尔士的地图上描绘了当时文盲、私生子、犯罪和不负责任的婚姻的情况。我们对他的这个作品进行了广泛讨论,包括弗莱彻做了什么、为什么以及如何通过更现代的展示方法来帮助他实现社会公正的目标。
第3部分数据科学工具在教育领域中的应用
公共教育涉及每个人。我们都曾缴纳本地财产税来为教育买单,而且几乎所有人,要么通过自己,要么通过孩子参与了公共教育。然而,很难想象在这样一个有着广泛基础的领域中,同样充斥着产生于似实的各种错误观点。在这一部分,我们将考察五个不同的公众舆论焦点。同样,这些观点都是基于逸事和先例而非证据支持。每一章我们都将介绍其中一个观点,然后再提出可以广泛获取的证据去明确反驳它。本部分与第1、2部分紧密相连,前面两部分介绍的方法用于强化我们的质疑精神,而本部分旨在提供一种基于证据的方法用以评估观点的可信度。
第12章等待阿基里斯/124
美国的教育制度常常因学生学业表现不佳且根深蒂固的白人与黑人学生分数差距而饱受诟病。在这一章中,我们使用证据来澄清这两个问题,这一过程让我们发现,情况远没有被似实驱动的批评者说的那么恶劣。
ⅩⅩⅥ
第13章终身教职价值几何?/128
公共教育的批评者通常将教育系统的缺陷归咎于教师终身制。在本章,我们追溯了终身教职制的起源,并提供了证据说明,要取消它可能会超出批判者的预期,不仅费用昂贵而且效果一般。
第14章拙劣的作弊检查:看起来像,就一定是/135
每当考试能带来重大影响时,就可能有人作弊。为了限制作弊行为,学生的成绩会受到严格的审查,作弊的学生有时会受到严厉的处罚。在这一章中,我们描述了两个例子,其调查的热情本身超过了其所支持的所谓违规的证据。
第15章没有不等于零:缺失数据、满意的年度进步指标和孟菲斯特许学校的真实故事/143
目前越来越多的时候,学校的业绩很大程度上取决于学生的考试成绩。在这一章中,我们了解到孟菲斯的一所特许学校因为学生的平均分数太低而被裁定再审其办学资格。不幸的是,这一明显的缺陷并不是学校造成的,而是这座城市对缺失数据的不当处理造成的。
第16章SAT考试改革之思:大学理事会在除掉斗牛犬吗?/149
美国现代高考已经存在了90年,在这一时期,考试的变化、评分和应用都在稳步进行。在这一章中,我们使用证据和统计思维来讨论*近大学理事会宣布的SAT三大变化。其中两项改变几乎不会带来任何实质效果,但第三项却属于重大改变。我们假设选择这些特殊的变化的原因,*后得出结论:大学董事会很可能采用了20世纪70年代达特茅斯学院校长约翰·凯梅尼为实现男女同校计划而制定的战略。
第17章只因少了一颗钉子:为什么无价值的分项分数可能严重阻碍西方文明的进步?/158
在2010年的美国人口普查中,人均统计成本为40美元。这似乎是一个奢侈的数字,因为美国人口的变化可以通过每13秒增加一个人的速度来进行准确估计。然而,由于人口普查还提供了许多小区域的统计数据估计,因此这个价格是合理的。在这一章中,我们从同样的角度来研究测试的成本,并得出结论:过长的测试所产生的机会成本可能过大,以至于可能会严重阻碍进步。
第4部分结论:在家尝试
参考文献/176
展开全部

作者简介

霍华德·维纳是美国国家医学考试委员会杰出的科学家,他发表了400余篇学术论文并出版了大量图书 (包括撰写了部分图书章节)。本书是他的第 21本著作。他的第 20本专著 《医学启示录:利用证据、可视化和统计思维改善医疗》成功入围英国皇家学会温顿图书奖的评选。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航