×
暂无评论
图文详情
  • ISBN:9787302680161
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:0
  • 出版时间:2025-01-01
  • 条形码:9787302680161 ; 978-7-302-68016-1

本书特色

本书是新兴领域“十四五”高等教育教材,系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法建立扎实的算法基础。


内容简介

"本书对数据科学与工程中的算法基础进行了全面的论述,把读者引入数据科学的大门,为进一步学习和掌握大数据分析算法提供有力的支撑。本书介绍的数据科学与工程中的算法基础包括特征工程、数据表征、数据抽样、随机优化算法和关联性分析等,侧重内容的科学性、实用性和前沿性。本书结构上注重理论与实践并重,各章通过案例引出问题,并深入介绍回答类似问题需要的知识,*后通过实际案例串联本章知识点,可以使读者感受到算法的价值及其在解决实际问题中的实用性。 本书可以作为高等学校大数据、计算机等相关专业的教学用书,对科研机构的研究人员、工程技术人员也有一定的参考价值。 "

前言

信息技术的飞速发展使数据的产生、存储和处理能力达到了前所未有的高度。数据的丰富性和复杂性带来了巨大的挑战,同时也蕴藏着巨大的机遇。如何挖掘不同类型数据中蕴藏的丰富信息,已经成为大数据时代面临的重要问题之一。数据科学与工程,作为一门新兴的交叉学科,正是为了应对这一挑战而诞生的。数据科学与工程以数据为研究对象,通过综合运用数学、统计学、计算机技术等方法对数据进行处理和分析,以实现数据的价值。数据科学与工程的核心是算法,它们是处理数据、提取信息、发现模式和预测未来的强大引擎。

本书旨在培养新工科背景下具备数据科学思维,掌握数据科学与工程算法的大数据专业人才。本书系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法打下扎实的基础。

全书共8章,内容包括绪论、特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析,不仅覆盖了传统数据科学领域的重要算法,还涉及*新的研究进展,如图计算、因果分析、多模态数据融合等前沿技术,使得本书既具有广度又具有深度。同时,本书内容结构遵循学习规律: 首先通过“问题导入”,建立现实问题与数据科学与工程相关技术的关系,明确学习目标,激发学生学习数据科学与工程相关技术的兴趣; 然后,构建相关的知识体系,介绍算法及其演化,提高学生描述问题的表达能力、解决问题的算法思维能力; 在此基础上,通过剖析典型案例,有力提高学生对知识和方法的掌握与综合运用能力,并提升学生对复杂工程问题的分析能力、综合处理能力和创新探究能力; *后对本章内容进行总结,并提供选择题、计算题、思考题等供读者练习。

本书由徐明华、陈志刚、罗俊如担任主编,官威博士和郝亚东博士担任副主编。研究生丁言瑞、汪池和徐昕瑜参与了本书部分案例的编写,并参与了书稿的校对工作,徐守坤教授、石林教授、邵辉教授、胡超副教授等对本书提出了许多宝贵意见,这里一并表示感谢。

本书在编写过程中参考和引用了许多专家和学者的资料,在此表示衷心的感谢。*后也要感谢所有为本书的编写、审校和出版付出辛勤劳动的工作人员。由于编者水平有限,时间仓促,书中难免存在不足之处,敬请读者批评指正。

 

编者
2024年12月

目录

第1章绪论

1.1概况

1.2数据分析

1.2.1流程

1.2.2算法分类

1.2.3基本原则

1.3算法基础

1.4本章小结

习题

第2章特征工程

2.1问题导入

2.2特征提取

2.3特征探索性分析

2.3.1单变量分析

2.3.2多变量分析

2.4特征预处理

2.4.1缺失值处理

2.4.2异常值处理

2.4.3特征变换

2.5特征选择

2.5.1过滤法

2.5.2封装法

2.5.3嵌入法

2.6案例: 工业设备信号特征工程

2.7本章小结

习题

第3章多类型数据表征

3.1问题导入

3.2时序数据表征

3.2.1频域特征

3.2.2时频域特征

3.3文本数据表征

3.3.1词袋模型

3.3.2TFIDF特征

3.3.3词向量嵌入

3.4图像数据表征

3.4.1图像处理基础

3.4.2SIFT

3.4.3HOG

3.4.4深度特征表示

3.4.5多模态特征融合

3.5案例: 农作物病虫害图像表征

3.6本章小结

习题

第4章数据抽样

4.1问题导入

4.2概率抽样

4.3非均衡抽样

4.3.1样本分布不均衡问题

4.3.2过采样

4.3.3欠采样

4.4数据流抽样

4.4.1数据流抽样问题

4.4.2蓄水池抽样

4.5蒙特卡洛抽样

4.5.1直接采样

4.5.2接受拒绝采样

4.5.3重要性采样

4.6案例: 基于SMOTE的信用卡交易欺诈数据采样

4.7本章小结

习题

第5章图计算

5.1问题导入

5.2图网络

5.2.1图网络表示

5.2.2网络结构分类

5.2.3网络描述性统计

5.3图基础算法

5.3.1图遍历

5.3.2图分割

5.4社区发现

5.4.1模块度

5.4.2GN算法

5.4.3谱方法

5.5GraphScope简介

5.6案例: 基于谱聚类的图像分割

5.7本章小结

习题

第6章随机优化算法

6.1问题导入

6.2梯度下降算法

6.3随机梯度下降算法

6.4梯度加速方法

6.4.1动量法

6.4.2Nesterov梯度加速

6.4.3自适学习率加速方法

6.5方差缩减

6.5.1方差缩减技术

6.5.2方差缩减算法

6.6案例: 逻辑回归模型优化算法

6.7本章小结

习题

第7章相似性度量

7.1问题导入

7.2相关系数

7.2.1皮尔逊相关系数

7.2.2余弦相似度

7.2.3Jaccard相似系数

7.3距离度量

7.3.1欧氏空间的距离度量

7.3.2流形空间的距离度量

7.3.3时间序列的距离度量

7.4概率散度

7.4.1f散度

7.4.2积分概率度量

7.5案例: 金融时间序列数据分析

7.6本章小结

习题

第8章关联性分析

8.1问题导入

8.2非线性相关性分析

8.3典型关联分析

8.4关联规则

8.4.1关联规则描述

8.4.2关联规则挖掘

8.4.3数值型关联规则挖掘

8.5因果分析

8.5.1结构因果模型与图模型

8.5.2因果效应评估

8.6案例: 购物车数据挖掘

8.7本章小结

习题

参考文献

展开全部

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航