- ISBN:9787030720825
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:212
- 出版时间:2022-08-01
- 条形码:9787030720825 ; 978-7-03-072082-5
内容简介
本书分为8章,分别为绪论,生物信息学数据库、资源及常用工具,序列比对,基因组测序组装与转座子分析,分子进化与比较基因组研究,多组学关联分析,蛋白质结构与功能预测,计算机辅助药物设计基础。本书首先介绍了生物信息学的研究内容、发展历史、应用领域和相关学习平台,然后对生物学信息资源、常用工具和数据库等进行了介绍(基础性),接着根据生物信息学在近期新科研前沿中的应用和近期新进展(新颖性),以实际操作为契机进行了不同领域应用的示范,辅以窗口图片和操作视频(操作性),*后以计算机辅助药物设计(趣味性)结束。全书体系完整、结构明晰、重点突出。每章后面附有相关的文献,以供读者延伸阅读。 本书图文并茂、穿插视频,适合作为高等院校生物学及相关专业本科生的教材,也可作为相关专业研究生、科研人员和技术人员的参考书。
目录
序
前言
第1章 绪论 1
1.1 生物信息学的研究内容 1
1.1.1 生物信息学涉及的生物学研究领域 1
1.1.2 生物信息学涉及的计算机研究领域 3
1.2 生物信息学的发展历史 5
1.2.1 生物信息学的萌芽(1950~1979年) 5
1.2.2 生物信息学的成长(1980~1990年) 5
1.2.3 生物信息学的飞速发展(1991年至今) 6
1.3 生物信息学研究机构 6
1.3.1 美国国立生物技术信息中心 6
1.3.2 欧洲生物信息研究所 8
1.3.3 日本的DNA数据库 8
1.3.4 Expasy 8
1.3.5 北京大学生物信息中心 10
1.3.6 华大基因 10
1.4 生物信息学的应用 11
1.4.1 序列比对 11
1.4.2 基因组测序组装与重复系列分析 11
1.4.3 分子进化和比较基因组研究 12
1.4.4 蛋白质结构比对和功能预测 12
1.4.5 多组学关联分析 12
1.4.6 计算机辅助药物设计 13
1.5 生物信息学发展面临的机遇与挑战 13
第2章 生物信息学数据库、资源及常用工具 16
2.1 数据库的分类 16
2.1.1 依据数据库存储内容进行划分 16
2.1.2 依据数据来源进行划分 18
2.2 常用数据库介绍 19
2.2.1 NCBI 19
2.2.2 Ensembl 23
2.2.3 UCSC 23
2.2.4 KEGG PATHWAY 24
2.2.5 KEGG ORTHOLOGY 24
2.2.6 Pfam 26
2.2.7 Cistrome DB 26
2.2.8 JASPAR 26
2.2.9 Cell BLAST 27
2.2.10 EWAS Data Hub 27
2.2.11 DiseaseMeth 28
2.2.12 TAIR 28
2.2.13 ChEMBL 28
2.3 NCBI Entrez检索系统 30
2.4 在线资源及工具 30
2.4.1 Windows10下的Linux子系统 30
2.4.2 BLAST 33
2.4.3 ORF Finder 34
2.4.4 CD-search 34
2.4.5 Expasy 35
2.4.6 ProtParam 35
2.4.7 PlantCARE 35
2.4.8 WoLF PSORT 35
2.4.9 psRNATarget 36
2.4.10 SOPMA 36
2.4.11 SWISS-MODEL 36
2.5 生物信息学相关的期刊 37
2.6 在线交流平台 38
2.6.1 菜鸟教程 38
2.6.2 生物软件网 38
2.6.3 OmicShare Forum 40
2.6.4 生信技能树 40
2.6.5 丁香园 40
2.6.6 小木虫 42
第3章 序列比对 46
3.1 序列比对的概念 46
3.1.1 空位 46
3.1.2 双序列比对与多序列比对 46
3.2 序列比对的量化 47
3.2.1 打分矩阵 47
3.2.2 空位罚分 49
3.2.3 相似与同源 49
3.3 序列比对算法 50
3.3.1 全局比对与局部比对 50
3.3.2 动态规划算法 50
3.3.3 BLAST算法 51
3.4 序列比对在生物信息学中的地位 51
3.5 序列比对的工具 52
3.5.1 常用序列比对工具及其功能 52
3.5.2 通过Clustal进行序列比对 53
3.5.3 通过DNAMAN进行序列比对 54
3.5.4 通过APE进行序列比对 56
第4章 基因组测序组装与转座子分析 61
4.1 基因组测序技术 62
4.1.1 **代测序技术 62
4.1.2 第二代测序技术 63
4.1.3 第三代测序技术 68
4.1.4 高通量测序技术的应用 70
4.1.5 高通量测序数据库 73
4.1.6 高通量测序相关数据存储格式 75
4.2 基因组序列拼接和质量评估 80
4.2.1 序列拼接概述 80
4.2.2 利用velvet工具拼接 81
4.2.3 基因组序列组装质量评估 82
4.3 基因组转座子 83
4.3.1 转座子的分类 83
4.3.2 自主与非自主转座子 84
4.3.3 转座子的命名 85
4.3.4 转座子的挖掘方法 85
4.3.5 LTR反转录转座子插入时间计算 86
4.3.6 转座子数据库 87
4.3.7 利用LTR_STRUC挖掘LTR反转录转座子序列 88
4.3.8 利用PILER挖掘基因组重复序列 89
4.4 LTR反转录转座子的全基因组挖掘 90
4.4.1 LTR反转录转座子全基因组挖掘概述 90
4.4.2 LTR反转录转座子的综合挖掘 91
4.4.3 拷贝数与基因组分布 91
4.4.4 LTR反转录转座子与基因组大小相关性计算 91
4.4.5 LTR反转录转座子家族的活跃时期 93
第5章 分子进化与比较基因组研究 97
5.1 分子进化的相关概念 97
5.1.1 分子进化 97
5.1.2 分子进化树 98
5.1.3 分子钟假说 98
5.2 进化树的构建方法 99
5.2.1 进化树构建方法分类 99
5.2.2 *大简约法 99
5.2.3 *大似然法 100
5.3 分子进化常用软件 101
5.3.1 PHYLIP 101
5.3.2 PAML 102
5.3.3 MEGA 103
5.3.4 PAUP 103
5.3.5 RAxML 104
5.4 比较基因组研究 104
5.4.1 基因家族聚类 104
5.4.2 系统进化分析 105
5.4.3 物种分歧时间的估算 105
5.4.4 基因家族的扩张与收缩 106
5.4.5 正选择分析 108
5.4.6 全基因组复制事件 108
5.5 比较基因组学分析实战 108
5.5.1 直系同源基因簇聚类分析 108
5.5.2 系统进化分析 111
5.5.3 物种分歧时间估算 115
5.5.4 选择压力分析 119
5.5.5 共线性分析 120
第6章 多组学关联分析 124
6.1 多组学关联分析简介 124
6.2 几种常用的组学技术 124
6.2.1 基因组学 124
6.2.2 转录组学 126
6.2.3 蛋白质组学 126
6.2.4 代谢组学 126
6.2.5 表观基因组学 126
6.2.6 微生物组学 126
6.2.7 脂质组学 127
6.3 多组学联合分析的优势 127
6.4 多组学联合分析的应用领域 127
6.5 多组学联合分析的研究方向 128
6.5.1 基因组、转录组和表观基因组学 128
6.5.2 转录组和蛋白质组学 128
6.5.3 转录组和代谢组学 129
6.5.4 蛋白质组和代谢组学 129
6.5.5 微生物组和代谢组学 129
6.5.6 转录组、蛋白质组和代谢组学 130
6.6 多组学分析实战 131
6.6.1 基因组和转录组分析 131
6.6.2 转录组和蛋白质组分析(ChIP-seq分析) 143
6.6.3 基因组、转录组和表观基因组分析(DNase-seq分析) 148
6.6.4 基因组和表观组分析(ATAC-seq分析) 154
6.6.5 GWAS分析 164
第7章 蛋白质结构与功能预测 169
7.1 蛋白质结构概述 169
7.1.1 蛋白质结构与生物学功能 169
7.1.2 获得蛋白质结构的实验方法 169
7.1.3 蛋白质结构比对 170
7.2 蛋白质二级结构的预测 171
7.2.1 预测工具 171
7.2.2 二级结构预测示例 172
7.3 蛋白质结构数据库 174
7.3.1 PDB数据库的检索 174
7.3.2 蛋白质结构的数据格式 174
7.3.3 蛋白质结构可视化工具 175
7.3.4 蛋白质结构预测的意义 177
7.4 蛋白质三级结构的预测 178
7.4.1 同源建模 178
7.4.2 从头预测 181
7.4.3 氨基酸替换对蛋白质功能影响的预测 182
7.4.4 蛋白质结构预测的平台 183
第8章 计算机辅助药物设计基础 187
8.1 分子对接 187
8.1.1 分子对接工具 187
8.1.2 AutoDock程序的安装 188
8.1.3 小分子的处理 190
8.1.4 大分子的处理 193
8.1.5 两个参数文件(GPF和DPF)的设置 193
8.1.6 结果的保存与处理 196
8.2 分子动力学模拟 196
8.2.1 分子动力学模拟概述 196
8.2.2 利用Amber工具生成小分子模板 198
8.2.3 Amber处理蛋白质文件 199
8.2.4 能量优化 200
8.2.5 分子模拟 202
8.2.6 结果数据分析 203
附录1 生物信息学词汇 207
附录2 ASCII码表 209
节选
|第1章| 绪论 生物信息学(bioinformatics)是近年来在生命科学领域新兴起的一门交叉学科,它综合生物学、计算机科学、数学、物理等多学科的理论知识,以及数据库、软件、计算机算法等多种工具,以揭示大量数据背后所蕴含的生物学意义。 20世纪50年代,随着生物科学及技术的发展,生物信息学思想产生了萌芽。20世纪末期,随着人类基因组计划的实施,面对指数增长的基因组相关测序及分析实验数据和计算机科学的高速发展,生物信息学逐渐兴起。而后,个人计算机的普及和大量的生物信息资源数据库加速了这一新兴学科的蓬勃发展。目前,生物信息学的研究内容几乎涵盖了生命科学的所有领域,它的发展给生命科学研究带来重大的变革,其研究成果对相关学科及研究领域的发展起推动作用,同时也将带来巨大的社会效益和经济效益。 1.1 生物信息学的研究内容 1.1.1 生物信息学涉及的生物学研究领域 序列比对是生物信息学的基本组成和重要基础。DNA或蛋白质序列包含了大量的生物学信息,比较不同序列对生物学研究有重要价值。此外,很多生物信息学算法也是以序列比对为基础,如相似序列检索、进化分析和同源建模等。序列比对的基本思想是将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似度及一致度,发现生物序列中的功能、结构和进化的信息(图1.1)。双序列比对是将两条DNA或蛋白质序列进行比较,用于确定两者之间的*大匹配率,寻找相似性关系。常用的算法包括BLAST算法、FASTA算法等。多序列比对是将三条或三条以上具有系统进化关系的DNA或蛋白质序列进行比对,利用算法得到不同序列之间的结构相似区域以推测其功能。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失及序列重组等遗传变异过程分别演化而来。在序列比对中,可以明显看到序列中某些氨基酸残基比其他位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的。当然,并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略地说,如果序列之间的相似性超过30%,它们就很可能是同源的。 图1.1序列比对 基因组是生物体所包含的遗传物质的总和,而通过生物信息学、遗传学等多学科理论知识及相关工具研究物种基因组来对基因加以利用的科学,称为基因组学。其实质是分析和解读物种核酸序列中所表达的结构与功能的生物学信息。因此,生物信息学是基因组学研究中必不可少的工具。生物信息学在基因组研究中所起的作用:一是基因组序列的组装,基因组正确组装是基因测序的首要问题,也是基因组测序的瓶颈,虽然已经有很多基因组组装的算法,但目前并没有形成统一的标准;二是基因组的注释,包括编码基因的注释、重复序列的注释及功能注释等;三是基于基因组序列数据的进化研究。 随着基因组学的快速发展,越来越多物种的基因组信息已公开,基因所编码的蛋白质序列得到了人们的广泛关注。相比于恒定的基因组,有机体不同组织或细胞中由基因表达所产生的蛋白质组是动态变化的,具有明显的组织、细胞特异性。因此,了解机体不同组织细胞在各种状态下产生的蛋白质的类型和数量,揭示所有基因或蛋白质的功能及其作用模式,是蛋白质组学的重要研究目标及主要研究内容。蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为疾病机制的阐明及治疗提供理论依据和解决途径。与此同时,与生物信息学数据库、软件及工具的结合,不仅大大加快了蛋白质组学的发展,还有利于系统生物学的整体研究,为研究生物系统提供新的策略。 蛋白质的结构与功能研究是蛋白质组学中重要的一部分,因此蛋白质的结构预测也是生物信息学研究的重要内容。蛋白质分子是由22种不同的氨基酸通过共价键连接而成的线性多肽链,然而天然的球状蛋白质分子在水溶液中并不是一条走向无规则的松散肽链,每一种蛋白质在天然条件下都有自己特定的空间结构。前人的理论及实验研究表明,不同的氨基酸残基具有在不同的局部环境中形成特定二级结构的倾向性,因此对蛋白质二级结构的预测是了解其空间结构的首要一步。目前,蛋白质三级结构预测*主流的方法是同源建模法,同源建模是将与目标序列具有同源关系的已知的序列结构为模板,用生物信息学的方法通过计算机模拟和计算,根据一级序列预测其三维空间结构。 随着人类基因组计划的完成及各种组学研究的实施,疾病相关的潜在作用靶点被大量发现,通过高速发展的生物信息学相关技术,基于生物大分子结构的药物设计变得可行,为药物设计方法提供了新的思路。计算机辅助药物设计主要包括活性位点分析、数据库搜寻、全新药物设计。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常或疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。为了抑制某些酶或蛋白质的活性,在已知其蛋白质三级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这一领域的研究目的是发现新的基因药物,有着巨大的经济效益。 基于不同物种基因组中DNA或蛋白质序列的异同来研究生物进化现象,称为分子进化,而早期研究物种进化的方法常依赖于物种外在的性状。分子进化利用不同物种同源基因的差异来研究生物的进化,其前提是假定相似种族在基因上具有相似性。通过比较可以在分子层面上发现哪些是不同种族中共同的、哪些是不同的。由于蛋白质的结构相对更加保守,因此通过蛋白质空间结构的异同来进行物种进化相关研究,能够得到更多有用信息。此外,越来越多物种的全基因组序列的公布,有利于在基因组层面上研究生物进化过程,为进化机制的深入研究提供依据。 随着生物学实验技术的发展和数据积累,从全局水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的一个研究热点。系统生物学将生物系统内所有组成成分(基因、mRNA、蛋白质、生物小分子等)及其在特定条件下的相互作用关系整合在一起进行研究,侧重于生物单元在整体水平上的复杂作用网络。系统生物学首先对选定的生物系统的所有组分进行观察及分析,尽可能地了解其相关信息并描绘出该生物系统的结构,包括基因相互作用网络和代谢途径,以及细胞内和细胞间的作用机制,以此构造出一个初步的系统模型。再将所研究对象的内部组成成分(如基因突变)或外部生长条件进行改变,观测某些特定情况下系统组分及结构所发生的相应变化,包括基因组、蛋白质组、代谢组等,并将每个层次获得的信息进行整合。*后通过实验数据与模型预测结果的比较,对模型进行修订,通过后续的模型假设,设计相关系统变量实验进行确定,*终得到一个能够反映生物系统真实性的理想模型。 1.1.2 生物信息学涉及的计算机研究领域 生物信息学使用计算分析方法解决生物学问题。生物信息学作为一门交叉学科,需要依赖计算机算法、数据库技术对生物实验所得数据进行收集、加工和整理。计算机算法为生物信息学的各种研究方向都提供了如下所示多种可能性和解决方案。 (1)遗传算法1975年美国J.Holland教授提出的遗传算法,是一类借鉴生物界的进化规律(适者生存、优胜劣汰)演化而来的随机化搜索方法,其基本原理是模拟达尔文生物进化论的自然选择和遗传学机制的生物进化过程的计算模型,通过模拟自然进化过程搜索*优解的方法。其主要特点:一是直接对结构对象进行操作,不存在求导和函数连续性的限定;二是采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则,具有内在的隐式并行性和更好的全局寻优能力;三是遗传算法从代表问题可能潜在的解集的一个种群开始,而一个种群则由经过基因编码的一定数目的个体组成。染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(即基因型)是某种基因组合,它决定了个体形状的外部表现。因此,在一开始就需要实现从表现型到基因型的映射即编码工作。为了避免仿照基因编码的复杂工作,往往进行简化,如二进制编码,物种初代种群产生之后,按照适者生存和优胜劣汰的原理,逐代演化产生越来越好的近似解,在每一代,根据问题域中个体的适应度大小选择个体,并借助于自然遗传学的遗传算子进行组合交叉和变异,产生代表新的解集的种群。这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境,末代种群中的*优个体经过解码,可以作为问题近似*优解。目前,遗传算法已被人们广泛应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。 (2)*大简约算法*大简约算法是进化生物学研究中重要的分析方法,其原则对于处理复杂的生物演化过程有重要意义。*大简约算法根据离散型性状[包括形态学性状和分子序列(DNA、蛋白质等)]的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。对一组数据的分析可能得到多棵同等简约树,即这些系统树具有同样的演化步数,在后续的分析中应构建这些同等简约树的一致树。加权简约性分析在某种程度上可以提高*大简约法的效力,并可能更真实地反映生物的自然演化过程。由于趋同演化现象的存在,*大简约法有时会使得原本具有不同进化过程的生物被归为一支,因此,*大简约法大多应用于相近物种之间演化关系的分析。 (3)聚类算法聚类算法又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,它是以相似性为基础,同一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类算法起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐把数学工具应用到分类学中,形成了数值分类学,之后又将多元分析的技术引入数值分类学形成了聚类算法。聚类算法内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。例如,图论聚类法解决的**步是建立与问题相适应的图,图的节点对应于被分析数据的*小单元,图的边(或弧)对应于*小处理单元数据之间的相似性度量。因此,每一个*小处理单元数据之间都会有一个度量表达,这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源,因而其主要优点是易于处理局部数据的特性。又如,把模糊数学方法引入聚类分析即产生了模糊聚类法。模糊聚类法大致可分为两种:一是基于模糊关系上的模糊聚类法,也称为系统聚类分析法;另一种称为非系统聚类法,它是先把样品粗略地分一下,然后按其*优原则进行分类,经过多次迭代直到分类比较合理为止,这种方法也称为逐步聚类法。我们通常讲的模糊聚类分析是指将模糊数学的原理应用到系统聚类分析的方法。模糊聚类分析的**步是确定聚类单元全集U,第二步是确定聚类准则和聚类因子,第三步是根据聚类准则及因子进行数据的调查与整理,*后将统计数据进行无量纲处理,称为正规化。 (4)数据库的建设与管理数据库建设是系统建设的关键。在建库时,要充分考虑数据有效共享的需求,同时也要保证数据访问的合法性和安全性。数据库采用统一的坐标系统和高程基准,矢量数据采用大地坐标的数据在数值上是连续的,避免高斯投影跨带问题,从而保证数据库地理对象的完整性,为数据库的查询检索、分析应用提供方便。数据库管理是一种计算机辅助管理数据的方法,它是通过研究数据库的结构、存储、设计、管理及应用的基本理论和实现方法,来实现对数据库中的数据进行处理、分析和理解的技术。涉及的内容主要有:一是通过对数据的统一组织和管理,按照指定的结构建立相应的数据库和数据仓库;二
-
勒维特之星-大发现系列丛书
¥4.0¥16.0 -
喜马拉雅山珍稀鸟类图鉴
¥27.2¥68.0 -
昆虫的生存之道
¥12.2¥38.0 -
昆虫采集制作及主要目科简易识别手册
¥15.0¥50.0 -
古文诗词中的地球与环境事件
¥8.7¥28.0 -
声音简史
¥21.3¥52.0 -
不匹配的一对:动物王国的性别文化
¥16.7¥42.8 -
物理学之美-插图珍藏版
¥20.7¥69.0 -
现代物理学的概念和理论
¥18.4¥68.0 -
技术史入门
¥14.4¥48.0 -
几何原本
¥35.6¥93.6 -
改变世界的发现
¥15.4¥48.0 -
图说相对论(32开平装)
¥13.8¥46.0 -
数学的魅力;初等数学概念演绎
¥7.7¥22.0 -
星空探奇
¥14.0¥39.0 -
宇宙与人
¥10.5¥35.0 -
数学专题讲座
¥13.3¥29.0 -
袁隆平口述自传
¥19.9¥51.0 -
为了人人晓得相对论
¥3.9¥13.5 -
一代神话:哥本哈根学派
¥8.1¥15.5