×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
暂无评论
图文详情
  • ISBN:9787302570677
  • 装帧:70g胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:640
  • 出版时间:2021-06-01
  • 条形码:9787302570677 ; 978-7-302-57067-7

本书特色

本书采用双色印刷,部分重点图片可扫码观看彩图。本书采用次加大开本印刷,使代码的阅读更加方便。 本书与常规介绍SAS、R语言、Stata和Python等统计软件的书籍*大的区别在于避免只讲统计分析而忽略如何高效、准确地提取主要结果,如何生成可直接用于汇报、交流或达到SCI发表要求的表格。 本书立足于目前大数据研究的现状分三步进行讲解。首先强调必须掌握的数学和统计学基础知识;其次,根据真实世界的电子病历及健康注册系统的数据特征,模拟出与其复杂程度和处理难度相当的模拟数据库;再次,针对同一研究问题,在SAS、R语言、Stata和Python中进行同步处理,详细讲解如何在这4个统计软件中实现从数据导入、数据清洗、统计分析、整理输出结果(表格或图)到结果解释的全部过程,从而可完成软件的对比学习,达到事半功倍的效果。以上3点也是本书的特色所在。 笔者将着眼于真实世界的医学研究,主要介绍在四个软件中*常用的、*高效的命令及编程方法,使数据工作者能够在短时间内掌握每个软件的精髓,并且能够学以致用,切实应用到自己的研究项目中解决相关问题。但本书不会过多的涉及诸如模型的比较和选择等问题,因该类问题常是由研究课题或项目来决定的,不存在放之四海而皆准的准则。对该类问题感兴趣的读者,请查阅相关书籍或文章。 本书主要是面向在校大学生、研究生以及欲掌握SAS、R语言、Stata和Python的数据工作者,熟悉4个软件的任意一个且欲短时间内掌握其他软件者,尤其适合医科学生、临床医生或药企人员等医疗相关人员学习使用。 本书采用双色印刷,部分重点图片可扫码观看彩图,本书采用次加大开本印刷,使代码的阅读更加方便。书中案例的数据和代码可下载使用。本书通过对医疗领域的大数据分析案例讲解SAS、R、STATA、PYTHON的联合使用。案例生动。

内容简介

面对日渐复杂的大数据,科技工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作,因此需要熟悉和掌握多种统计工具,各取所长、整合使用。本书立足于大数据研究的现状,基于实际医疗案例,介绍数学基础知识和统计学基础知识,SAS、R语言、Stata和Python这4款大数据常用分析工具的基础编程知识及实践操作。 本书主要面向在校本科生、研究生,以及要掌握SAS、R语言、Stata和Python的数据工作者,熟悉四个软件的任意一个且想要在短时间内掌握其他软件的读者,也适合医科学生、临床医生或药企人员等医疗相关人员学习使用。

目录

目录



第1章数学基础1

1.1常用的数学符号1

1.2常见概念2

1.2.1集合2

1.2.2极限3

1.3微积分5

1.3.1导数与微分5

1.3.2基本初等函数的导函数和微分公式6

1.3.3导数与微分的运算法则7

1.3.4定积分与不定积分8

1.3.5基本的不定积分公式9

1.3.6定积分与不定积分的性质10

1.4线性代数11

1.4.1标量与向量11

1.4.2矩阵与线性方程组11

1.4.3行列式的定义与运算12

1.4.4矩阵的运算法则14

1.4.5特殊的矩阵16

1.4.6矩阵的秩17

1.4.7矩阵的转置与矩阵的逆18

1.4.8特征向量与特征值18

第2章统计学基础20

2.1概率论的基本概念20

2.2随机变量与分布21

2.2.1随机变量21

2.2.2累积分布函数222.2.3概率函数22

2.3随机变量的数学特征23

2.3.1数学期望23

2.3.2期望值的规律24

2.3.3条件期望25

2.3.4协方差与相关系数25

2.3.5样本均值和方差26

2.4常见的随机变量分布27

2.4.1离散变量分布27

2.4.2连续变量分布28

2.5统计学基本概念32

2.5.1总体与样本32

2.5.2参数和统计量32

2.5.3中心极限定理32

2.6统计描述32

2.6.1定量资料的统计描述32

2.6.2分类资料的统计描述34

2.7统计推断34

2.7.1参数估计34

2.7.2假设检验38

2.8多因素回归模型40

2.8.1多因素线性回归模型40

2.8.2多因素Logistic回归模型41

2.8.3多因素Cox回归模型43

第3章软件基础总论45

3.1软件初识45

3.1.1SAS45

3.1.2R语言45

3.1.3Stata45

3.1.4Python46

3.24个软件的比较46

第4章SAS基础52

4.1SAS介绍与资源52

4.1.1SAS语言及程序结构52

4.1.2SAS工作界面53

4.1.3获得帮助54

4.2数据的导入与导出55

4.2.1导入数据55

4.2.2导出数据67

4.3SAS中常用的函数70

4.3.1字符型函数70

4.3.2数值型函数80

4.3.3日期型函数84

4.3.4特殊函数86

4.3.5其他函数89

4.4SAS变量91

4.4.1变量属性92

4.4.2自动变量92

4.4.3变量列表的缩写规则92

4.4.4创建变量94

4.4.5改变变量属性96

4.4.6改变变量类型96

4.5SAS数据处理97

4.5.1选取变量97

4.5.2创建变量99

4.5.3对观测求和100

4.5.4选取并操作部分观测102

4.5.5循环和数组104

4.5.6数据集的横向合并和纵向合并107

4.5.7增加数据集处理灵活性的SAS选项111

4.6SAS中常见的proc步113

4.6.1proc contents113

4.6.2proc datasets114

4.6.3proc freq116

4.6.4proc means118

4.6.5proc sort120

4.6.6proc transpose121

4.6.7proc univariate123

4.6.8proc corr125

4.6.9proc reg126

4.6.10proc logistic128

4.6.11proc lifetest129

4.6.12proc phreg130

4.7PROC SQL131

4.7.1检索数据131

4.7.2合并数据集135

4.7.3使用PROC SQL管理表137

4.8SAS宏介绍143

4.8.1宏变量143

4.8.2宏函数147

4.8.3宏程序151

4.8.4宏参数152

4.8.5宏语言与data步153

4.8.6宏语言与PROC SQL157

4.8.7条件语句和循环语句在宏语言中的使用161

第5章R语言基础163

5.1R语言介绍163

5.1.1R语言的特点与资源163

5.1.2RStudio使用简介163

5.2R语言的基本规则164

5.2.1对象165

5.2.2函数使用基础165

5.2.3扩展包166

5.2.4帮助167

5.3数据类型167

5.3.1vector167

5.3.2factor169

5.3.3date171

5.3.4matrix172

5.3.5list175

5.3.6data.frame179

5.3.7formula181

5.4常用函数介绍182

5.4.1数据的读入和导出182

5.4.2条件判断183

5.4.3循环186

5.4.4文本处理188

5.4.5基本作图190

5.4.6自定义函数192

5.5常用数据处理与统计分析函数195

5.5.1单变量分析195

5.5.2双变量、多变量分析198

5.5.3线性回归模型200

5.5.4Logistic回归模型202

5.5.5生存分析模型203

5.6dplyr包简介206

5.6.1安装dplyr包206

5.6.2dplyr包中*常用的5个函数206

5.6.3用%>%运算符连接多个函数211

5.6.4dplyr包中其他实用的函数212

5.7ggplot2包简介214

5.7.1安装ggplot2包214

5.7.2使用ggplot2画图的基本思路214

5.7.3使用geom_histogram函数绘制直方图215

5.7.4使用geom_bar函数绘制柱状图217

5.7.5使用geom_boxplot函数绘制箱形图217

5.7.6使用geom_point函数绘制散点图220

5.7.7使用geom_smooth函数在散点图上添加线性回归结果223

5.7.8对图中细节进行微调224

5.7.9将多个图合并为一个图225

5.7.10保存图228

第6章Stata基础229

6.1Stata简介229

6.1.1界面介绍229

6.1.2在菜单栏中选择命令230

6.1.3输入命令代码230

6.2获得帮助230

6.2.1检索关键词230

6.2.2查看帮助231

6.2.3帮助建议231

6.3语法结构231

6.3.1变量集232

6.3.2by前缀233

6.3.3命令234

6.3.4=表达式234

6.3.5if表达式236

6.3.6in范围236

6.3.7权重237

6.3.8命令选项237

6.3.9数值集合238

6.3.10文件名238

6.4数据转换与分析239

6.4.1导入数据239

6.4.2浏览数据与基本描述240

6.4.3数值变量243

6.4.4文本变量247

6.4.5日期变量252

6.4.6缺失值253

6.4.7注释变量254

6.4.8调整数据结构256

6.4.9基本描述258

6.4.10统计检验260

6.4.11相关分析262

6.4.12回归分析263

6.4.13导出数据267

6.5输出结果调用268

6.5.1一般统计命令结果调用268

6.5.2估计命令结果调用269

6.6重复命令271

6.6.1by前缀271

6.6.2foreach循环274

6.6.3forvalues循环275

6.7编程工具275

6.7.1do文件275

6.7.2标量变量276

6.7.3宏变量277

6.7.4矩阵279

6.7.5程序283

第7章Python基础284

7.1Python的安装284

7.1.1使用Python安装包安装Python 3284

7.1.2通过Anaconda安装Python 3285

7.2常用交互式语言开发环境287

7.2.1编辑器288

7.2.2控制台289

7.2.3变量管理器290

7.3常用数据类型、数据结构与基本语句291

7.3.1Python中的变量命名规则291

7.3.2常见的数据类型及运算291

7.3.3常见的数据结构及运算291

7.3.4**个程序295

7.3.5函数295

7.3.6常用逻辑语句298

7.4数据的导入与导出302

7.4.1数据的读取302

7.4.2数据存储304

7.5基础运算常用包——NumPy 304

7.5.1基本性质304

7.5.2矢量化运算306

7.5.3NumPy中的函数306

7.5.4ndarray的轴、索引与切片309

7.5.5实战举例: 用NumPy进行图像处理313

7.6数据处理常用包——Pandas316

7.6.1主要数据类型316

7.6.2对DataFrame的描述318

7.6.3缺失值的检测与处理319

7.6.4DataFrame的索引321

7.6.5常见操作325

7.6.6字符处理专题328

7.6.7apply专题331

7.6.8groupby专题333

7.7统计分析常用包338

7.7.1单样本t检验339

7.7.2独立样本t检验340

7.7.3两个连续型变量的相关性341

7.7.4两个分类变量的频数统计341

7.7.5线性回归模型342

7.7.6Logistic回归模型345

7.7.7生存分析347

7.8绘图常用包352

7.8.1Pandas352

7.8.2Matplotlib356

7.8.3Seaborn360

第8章软件实践总论366

8.1本书使用的数据集366

8.1.1病人基本信息数据集366

8.1.2诊断信息数据集367

8.1.3实验室检测结果数据集(一)368

8.1.4实验室检测结果数据集(二)368

8.1.5用药信息数据集368

8.1.6急性心肌梗死数据集369

8.2软件实践步骤369

8.2.1数据清洗369

8.2.2数据准备370

8.2.3数据分析370

8.2.4结果整理370

8.2.5代码的重复使用370

8.3实例: 拟研究的课题371

第9章SAS实践部分372

9.1数据的清洗与管理372

9.1.1病人基本信息数据集372

9.1.2诊断信息数据集376

9.1.3实验室检测结果数据集(一)381

9.1.4实验室检测结果数据集(二)387

9.1.5用药信息数据集390

9.2数据分析与结果整理393

9.2.1定量数据的统计描述394

9.2.2分类数据的统计描述398

9.2.3相关分析402

9.2.4线性回归分析406

9.2.5Logistic回归分析412

9.2.6Cox回归分析418

第10章R语言实践部分425

10.1数据的清洗与管理425

10.1.1病人基本信息数据集425

10.1.2诊断信息数据集431

10.1.3实验室检测结果数据集(一)435

10.1.4实验室检测结果数据集(二)439

10.1.5用药信息数据集442

10.2数据分析与结果整理445

10.2.1定量数据的统计描述446

10.2.2分类数据的统计描述449

10.2.3相关分析452

10.2.4线性回归分析453

10.2.5Logistic回归分析457

10.2.6Cox回归分析463

第11章Stata实践部分470

11.1数据的清洗与管理470

11.1.1病人基本信息数据集470

11.1.2诊断信息数据集483

11.1.3实验室检测结果数据集(一)490

11.1.4实验室检测结果数据集(二)495

11.1.5用药信息数据集500

11.2数据分析与结果整理504

11.2.1定量数据的统计描述504

11.2.2分类数据的统计描述511

11.2.3相关分析516

11.2.4一般线性回归分析519

11.2.5Logistic回归分析526

11.2.6Cox回归分析535

11.3Stata在Meta分析中的应用545

11.3.1Meta分析简介545

11.3.2二分类变量的Meta分析548

11.3.3连续性变量的Meta分析552

11.3.4发表偏倚分析553

第12章Python实践部分557

12.1数据的清洗与管理557

12.1.1病人基本信息数据集557

12.1.2诊断信息数据集566

12.1.3实验室检测结果数据集(一)571

12.1.4实验室检测结果数据集(二)578

12.1.5用药信息数据集582

12.2数据准备和数据分析584

12.2.1定量数据的统计描述584

12.2.2分类数据的统计描述587

12.2.3相关分析589

12.2.4线性回归分析591

12.2.5Logistic回归分析595

12.2.6Cox回归分析602参考文献609附录A常用假设检验方法610附录B正则表达式619附录C系统综述与Meta分析技术路线图622


展开全部

作者简介

孙江伟 复旦大学流行病与卫生统计学专业硕士,曾在强生公司(Johnson &Johnson)任生物统计师,对国内医药临床领域及国外医疗注册系统等大数据的数据管理、数据清洗、研究设计及统计分析,有丰富的理论及实践经验,现于瑞典卡罗林斯卡医学院进行卫生统计学方面的研究深造。在American Journal of Epidemiology、European Journal of Neurology等杂志发表相关领域SCI论文10篇。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航