- ISBN:9787302680161
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:0
- 出版时间:2025-01-01
- 条形码:9787302680161 ; 978-7-302-68016-1
本书特色
本书是新兴领域“十四五”高等教育教材,系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法建立扎实的算法基础。
内容简介
"本书对数据科学与工程中的算法基础进行了全面的论述,把读者引入数据科学的大门,为进一步学习和掌握大数据分析算法提供有力的支撑。本书介绍的数据科学与工程中的算法基础包括特征工程、数据表征、数据抽样、随机优化算法和关联性分析等,侧重内容的科学性、实用性和前沿性。本书结构上注重理论与实践并重,各章通过案例引出问题,并深入介绍回答类似问题需要的知识,*后通过实际案例串联本章知识点,可以使读者感受到算法的价值及其在解决实际问题中的实用性。 本书可以作为高等学校大数据、计算机等相关专业的教学用书,对科研机构的研究人员、工程技术人员也有一定的参考价值。 "
前言
信息技术的飞速发展使数据的产生、存储和处理能力达到了前所未有的高度。数据的丰富性和复杂性带来了巨大的挑战,同时也蕴藏着巨大的机遇。如何挖掘不同类型数据中蕴藏的丰富信息,已经成为大数据时代面临的重要问题之一。数据科学与工程,作为一门新兴的交叉学科,正是为了应对这一挑战而诞生的。数据科学与工程以数据为研究对象,通过综合运用数学、统计学、计算机技术等方法对数据进行处理和分析,以实现数据的价值。数据科学与工程的核心是算法,它们是处理数据、提取信息、发现模式和预测未来的强大引擎。
本书旨在培养新工科背景下具备数据科学思维,掌握数据科学与工程算法的大数据专业人才。本书系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法打下扎实的基础。
全书共8章,内容包括绪论、特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析,不仅覆盖了传统数据科学领域的重要算法,还涉及*新的研究进展,如图计算、因果分析、多模态数据融合等前沿技术,使得本书既具有广度又具有深度。同时,本书内容结构遵循学习规律: 首先通过“问题导入”,建立现实问题与数据科学与工程相关技术的关系,明确学习目标,激发学生学习数据科学与工程相关技术的兴趣; 然后,构建相关的知识体系,介绍算法及其演化,提高学生描述问题的表达能力、解决问题的算法思维能力; 在此基础上,通过剖析典型案例,有力提高学生对知识和方法的掌握与综合运用能力,并提升学生对复杂工程问题的分析能力、综合处理能力和创新探究能力; *后对本章内容进行总结,并提供选择题、计算题、思考题等供读者练习。
本书由徐明华、陈志刚、罗俊如担任主编,官威博士和郝亚东博士担任副主编。研究生丁言瑞、汪池和徐昕瑜参与了本书部分案例的编写,并参与了书稿的校对工作,徐守坤教授、石林教授、邵辉教授、胡超副教授等对本书提出了许多宝贵意见,这里一并表示感谢。
本书在编写过程中参考和引用了许多专家和学者的资料,在此表示衷心的感谢。*后也要感谢所有为本书的编写、审校和出版付出辛勤劳动的工作人员。由于编者水平有限,时间仓促,书中难免存在不足之处,敬请读者批评指正。
编者
2024年12月
目录
第1章绪论
1.1概况
1.2数据分析
1.2.1流程
1.2.2算法分类
1.2.3基本原则
1.3算法基础
1.4本章小结
习题
第2章特征工程
2.1问题导入
2.2特征提取
2.3特征探索性分析
2.3.1单变量分析
2.3.2多变量分析
2.4特征预处理
2.4.1缺失值处理
2.4.2异常值处理
2.4.3特征变换
2.5特征选择
2.5.1过滤法
2.5.2封装法
2.5.3嵌入法
2.6案例: 工业设备信号特征工程
2.7本章小结
习题
第3章多类型数据表征
3.1问题导入
3.2时序数据表征
3.2.1频域特征
3.2.2时频域特征
3.3文本数据表征
3.3.1词袋模型
3.3.2TFIDF特征
3.3.3词向量嵌入
3.4图像数据表征
3.4.1图像处理基础
3.4.2SIFT
3.4.3HOG
3.4.4深度特征表示
3.4.5多模态特征融合
3.5案例: 农作物病虫害图像表征
3.6本章小结
习题
第4章数据抽样
4.1问题导入
4.2概率抽样
4.3非均衡抽样
4.3.1样本分布不均衡问题
4.3.2过采样
4.3.3欠采样
4.4数据流抽样
4.4.1数据流抽样问题
4.4.2蓄水池抽样
4.5蒙特卡洛抽样
4.5.1直接采样
4.5.2接受拒绝采样
4.5.3重要性采样
4.6案例: 基于SMOTE的信用卡交易欺诈数据采样
4.7本章小结
习题
第5章图计算
5.1问题导入
5.2图网络
5.2.1图网络表示
5.2.2网络结构分类
5.2.3网络描述性统计
5.3图基础算法
5.3.1图遍历
5.3.2图分割
5.4社区发现
5.4.1模块度
5.4.2GN算法
5.4.3谱方法
5.5GraphScope简介
5.6案例: 基于谱聚类的图像分割
5.7本章小结
习题
第6章随机优化算法
6.1问题导入
6.2梯度下降算法
6.3随机梯度下降算法
6.4梯度加速方法
6.4.1动量法
6.4.2Nesterov梯度加速
6.4.3自适学习率加速方法
6.5方差缩减
6.5.1方差缩减技术
6.5.2方差缩减算法
6.6案例: 逻辑回归模型优化算法
6.7本章小结
习题
第7章相似性度量
7.1问题导入
7.2相关系数
7.2.1皮尔逊相关系数
7.2.2余弦相似度
7.2.3Jaccard相似系数
7.3距离度量
7.3.1欧氏空间的距离度量
7.3.2流形空间的距离度量
7.3.3时间序列的距离度量
7.4概率散度
7.4.1f散度
7.4.2积分概率度量
7.5案例: 金融时间序列数据分析
7.6本章小结
习题
第8章关联性分析
8.1问题导入
8.2非线性相关性分析
8.3典型关联分析
8.4关联规则
8.4.1关联规则描述
8.4.2关联规则挖掘
8.4.3数值型关联规则挖掘
8.5因果分析
8.5.1结构因果模型与图模型
8.5.2因果效应评估
8.6案例: 购物车数据挖掘
8.7本章小结
习题
参考文献
-
思想道德与法治(2021年版)
¥6.8¥18.0 -
中医基础理论
¥51.7¥59.0 -
落洼物语
¥9.4¥28.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥36.0¥48.0 -
毛泽东思想和中国特色社会主义理论体系概论(2021年版)
¥9.0¥25.0 -
艺术学概论
¥14.5¥37.4 -
粒子输运数值计算方法及其应用
¥42.8¥58.0 -
艺术学概论
¥60.2¥79.0 -
毛泽东思想和中国特色社会主义理论体系概论
¥10.5¥25.0 -
智能控制
¥40.2¥56.0 -
社会学概论(第二版)
¥34.0¥55.0 -
法理学(第二版)
¥18.0¥50.0 -
全国中医药行业高等教育“十三五”规划教材中医养生学/马烈光/十三五规划
¥36.8¥55.0 -
基于python的从学习编程到解决问题
¥35.4¥53.8 -
水利工程监理
¥28.3¥42.0 -
新编大学生军事理论与训练教程
¥13.7¥39.8 -
世界现代史(1900-2000)
¥31.4¥80.0 -
水电站
¥24.4¥36.0 -
公路工程机械化施工技术-(第二版)
¥18.6¥32.0