- ISBN:9787302680161
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:0
- 出版时间:2025-01-01
- 条形码:9787302680161 ; 978-7-302-68016-1
本书特色
本书是新兴领域“十四五”高等教育教材,系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法建立扎实的算法基础。
内容简介
"本书对数据科学与工程中的算法基础进行了全面的论述,把读者引入数据科学的大门,为进一步学习和掌握大数据分析算法提供有力的支撑。本书介绍的数据科学与工程中的算法基础包括特征工程、数据表征、数据抽样、随机优化算法和关联性分析等,侧重内容的科学性、实用性和前沿性。本书结构上注重理论与实践并重,各章通过案例引出问题,并深入介绍回答类似问题需要的知识,*后通过实际案例串联本章知识点,可以使读者感受到算法的价值及其在解决实际问题中的实用性。 本书可以作为高等学校大数据、计算机等相关专业的教学用书,对科研机构的研究人员、工程技术人员也有一定的参考价值。 "
前言
信息技术的飞速发展使数据的产生、存储和处理能力达到了前所未有的高度。数据的丰富性和复杂性带来了巨大的挑战,同时也蕴藏着巨大的机遇。如何挖掘不同类型数据中蕴藏的丰富信息,已经成为大数据时代面临的重要问题之一。数据科学与工程,作为一门新兴的交叉学科,正是为了应对这一挑战而诞生的。数据科学与工程以数据为研究对象,通过综合运用数学、统计学、计算机技术等方法对数据进行处理和分析,以实现数据的价值。数据科学与工程的核心是算法,它们是处理数据、提取信息、发现模式和预测未来的强大引擎。
本书旨在培养新工科背景下具备数据科学思维,掌握数据科学与工程算法的大数据专业人才。本书系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法打下扎实的基础。
全书共8章,内容包括绪论、特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析,不仅覆盖了传统数据科学领域的重要算法,还涉及*新的研究进展,如图计算、因果分析、多模态数据融合等前沿技术,使得本书既具有广度又具有深度。同时,本书内容结构遵循学习规律: 首先通过“问题导入”,建立现实问题与数据科学与工程相关技术的关系,明确学习目标,激发学生学习数据科学与工程相关技术的兴趣; 然后,构建相关的知识体系,介绍算法及其演化,提高学生描述问题的表达能力、解决问题的算法思维能力; 在此基础上,通过剖析典型案例,有力提高学生对知识和方法的掌握与综合运用能力,并提升学生对复杂工程问题的分析能力、综合处理能力和创新探究能力; *后对本章内容进行总结,并提供选择题、计算题、思考题等供读者练习。
本书由徐明华、陈志刚、罗俊如担任主编,官威博士和郝亚东博士担任副主编。研究生丁言瑞、汪池和徐昕瑜参与了本书部分案例的编写,并参与了书稿的校对工作,徐守坤教授、石林教授、邵辉教授、胡超副教授等对本书提出了许多宝贵意见,这里一并表示感谢。
本书在编写过程中参考和引用了许多专家和学者的资料,在此表示衷心的感谢。*后也要感谢所有为本书的编写、审校和出版付出辛勤劳动的工作人员。由于编者水平有限,时间仓促,书中难免存在不足之处,敬请读者批评指正。
编者
2024年12月
目录
第1章绪论
1.1概况
1.2数据分析
1.2.1流程
1.2.2算法分类
1.2.3基本原则
1.3算法基础
1.4本章小结
习题
第2章特征工程
2.1问题导入
2.2特征提取
2.3特征探索性分析
2.3.1单变量分析
2.3.2多变量分析
2.4特征预处理
2.4.1缺失值处理
2.4.2异常值处理
2.4.3特征变换
2.5特征选择
2.5.1过滤法
2.5.2封装法
2.5.3嵌入法
2.6案例: 工业设备信号特征工程
2.7本章小结
习题
第3章多类型数据表征
3.1问题导入
3.2时序数据表征
3.2.1频域特征
3.2.2时频域特征
3.3文本数据表征
3.3.1词袋模型
3.3.2TFIDF特征
3.3.3词向量嵌入
3.4图像数据表征
3.4.1图像处理基础
3.4.2SIFT
3.4.3HOG
3.4.4深度特征表示
3.4.5多模态特征融合
3.5案例: 农作物病虫害图像表征
3.6本章小结
习题
第4章数据抽样
4.1问题导入
4.2概率抽样
4.3非均衡抽样
4.3.1样本分布不均衡问题
4.3.2过采样
4.3.3欠采样
4.4数据流抽样
4.4.1数据流抽样问题
4.4.2蓄水池抽样
4.5蒙特卡洛抽样
4.5.1直接采样
4.5.2接受拒绝采样
4.5.3重要性采样
4.6案例: 基于SMOTE的信用卡交易欺诈数据采样
4.7本章小结
习题
第5章图计算
5.1问题导入
5.2图网络
5.2.1图网络表示
5.2.2网络结构分类
5.2.3网络描述性统计
5.3图基础算法
5.3.1图遍历
5.3.2图分割
5.4社区发现
5.4.1模块度
5.4.2GN算法
5.4.3谱方法
5.5GraphScope简介
5.6案例: 基于谱聚类的图像分割
5.7本章小结
习题
第6章随机优化算法
6.1问题导入
6.2梯度下降算法
6.3随机梯度下降算法
6.4梯度加速方法
6.4.1动量法
6.4.2Nesterov梯度加速
6.4.3自适学习率加速方法
6.5方差缩减
6.5.1方差缩减技术
6.5.2方差缩减算法
6.6案例: 逻辑回归模型优化算法
6.7本章小结
习题
第7章相似性度量
7.1问题导入
7.2相关系数
7.2.1皮尔逊相关系数
7.2.2余弦相似度
7.2.3Jaccard相似系数
7.3距离度量
7.3.1欧氏空间的距离度量
7.3.2流形空间的距离度量
7.3.3时间序列的距离度量
7.4概率散度
7.4.1f散度
7.4.2积分概率度量
7.5案例: 金融时间序列数据分析
7.6本章小结
习题
第8章关联性分析
8.1问题导入
8.2非线性相关性分析
8.3典型关联分析
8.4关联规则
8.4.1关联规则描述
8.4.2关联规则挖掘
8.4.3数值型关联规则挖掘
8.5因果分析
8.5.1结构因果模型与图模型
8.5.2因果效应评估
8.6案例: 购物车数据挖掘
8.7本章小结
习题
参考文献
-
北大人文课(平装)
¥12.7¥45.0 -
落洼物语
¥9.4¥28.0 -
唐诗经典研读
¥21.9¥58.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥31.2¥48.0 -
“十三五”普通高等教育本科部委级规划教材西方服装史(第3版)
¥16.9¥49.8 -
剧本写作教程
¥15.4¥45.0 -
中医基础理论
¥51.7¥59.0 -
无人机低空基站组网与优化
¥70.6¥98.0 -
房屋建筑学(第六版)(赠教师课件,含数字资源)
¥50.0¥62.0 -
当代中国政府与政治 第二版
¥58.8¥68.0 -
新能源汽车综合故障诊断
¥32.8¥49.0 -
马克思主义基本原理(2023年版)
¥14.6¥23.0 -
马克思主义基本原理2021年版
¥11.5¥23.0 -
法理学(第二版)
¥31.0¥50.0 -
(本科教材)西方哲学简史
¥38.7¥58.0 -
马克思恩格斯列宁哲学经典著作导读(第2版马克思主义理论研究和建设工程重点教材)
¥37.6¥61.0 -
精读韩国新闻,学地道韩语韩国新闻导读教程
¥13.6¥36.0 -
现代汉语语法研究教程-第五版
¥39.3¥59.0 -
博雅大学堂·历史中国古代简史(第2版)/张帆
¥38.8¥60.0