- ISBN:9787302590699
- 装帧:70g胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:320
- 出版时间:2021-11-01
- 条形码:9787302590699 ; 978-7-302-59069-9
本书特色
1、本书使用Python 3版本的数据分析,如数据分析基础工具的Numpy、数据可视化工具的Matplotlib和Seaborn、数据处理工具的Pandas、数据统计工具的Scipy、机器学习工具的Sklearn以及自然语言处理的相关库。 2、本书代码采用基于Python的各类库实现,全部程序都通过上机调试和运行。在讲解基本理论的基础上加强动手实践能力的培养,让学生在操作中学会Python编程。 3、本书针对机器学习、数据分析、Python相关技术和自然语言处理的初、中级读者,从零开始逐行讲解代码,使其熟悉并实现自然语言处理的基本内容。 4、本书逻辑严谨,内容精练,文字简洁,通俗易懂,实训题目经典实用,综合性强。 5、本书配套资源,读者可登录清华大学出版社官网或扫描书中二维码获取。 以Python为基础讲述机器学习、人工智能和自然语言处理的知识,配套教学大纲、电子课件、源码资源等。
内容简介
本书内容包括自然语言处理概述、Python语言简述、Python数据类型、Python流程控制、Python函数、Python数据科学、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、评价指标、信息提取和情感分析。附录给出教学大纲。 本书采用基于Python语言的Sklearn平台和NLTK实现,便于学生更快地掌握自然语言处理的基本思想。实践是**的学习方法,本书的所有程序都在Anaconda下调试和运行。本书配有源代码、教学课件、语料集、教学大纲、程序安装包、每章的视频讲解等资料。 本书内容精练、文字简洁、结构合理,实训题目经典实用、综合性强,面向初、中级读者,由“入门”起步,侧重“提高”。特别适合作为高等院校自然语言处理和机器学习入门的本科或研究生教材或参考书,也可以供从事人工智能等工作的技术人员应用参考。
目录
目录
第1章自然语言处理概述1
1.1人工智能发展历程1
1.1.1**阶段: 20年黄金时代1
1.1.2第二阶段: **次寒冬1
1.1.3第三阶段: 繁荣期1
1.1.4第四阶段: 第二次寒冬2
1.1.5第五阶段: 稳健时代2
1.2自然语言处理2
1.2.1概述2
1.2.2发展历程3
1.2.3处理流程4
1.2.4研究内容4
1.3机器学习算法6
1.3.1监督学习6
1.3.2无监督学习7
1.4自然语言处理相关库8
1.4.1NumPy8
1.4.2Matplotlib8
1.4.3Pandas8
1.4.4SciPy9
1.4.5NLTK9
1.4.6SnowNLP11
1.4.7Sklearn12
1.5语料库12
1.5.1认识语料库12
1.5.2分类13
1.5.3构建原则13
1.5.4常用语料库13
1.5.5搜狗新闻语料库15第2章Python语言简述19
2.1Python简介19
2.1.1Python发展历程19
2.1.2Python的特点19
2.1.3Python应用场合20
2.2Python解释器21
2.2.1Ubuntu下安装Python21
2.2.2Windows下安装Python21
2.3Python编辑器22
2.3.1IDLE22
2.3.2VS Code23
2.3.3PyCharm23
2.3.4Anaconda24
2.3.5Jupyter 31
2.4代码书写规则32
2.4.1缩进32
2.4.2多行语句33
2.4.3注释33
2.4.4编码习惯33
2.5自学网站34
2.5.1菜鸟网站34
2.5.2廖雪峰学Python网站35
2.5.3Python官方网站35
2.5.4Python 100天从新手到大师网站35
第3章Python数据类型37
3.1变量37
3.1.1变量命名37
3.1.2变量引用38
3.2运算符38
3.2.1算术运算符38
3.2.2关系运算符39
3.2.3赋值运算符40
3.2.4逻辑运算符41
3.2.5位运算符41
3.2.6成员运算符43
3.2.7身份运算符43
3.3表达式43
3.3.1概念43
3.3.2操作44
3.4数据类型44
3.5数字45
3.5.1概念45
3.5.2操作45
3.6字符串46
3.6.1概念46
3.6.2操作46
3.7列表48
3.7.1概念48
3.7.2操作48
3.8元组53
3.8.1概念53
3.8.2操作54
3.9字典55
3.9.1字典的概念55
3.9.2字典操作56
3.9.3字典举例59
3.10集合59
3.10.1集合的概念59
3.10.2集合操作60
3.10.3集合举例61
3.11组合数据类型62
3.11.1相互关系62
3.11.2数据类型转换62
第4章Python流程控制63
4.1流程结构63
4.2顺序结构63
4.2.1输入输出64
4.2.2举例67
4.3选择结构67
4.3.1单分支67
4.3.2双分支68
4.3.3多分支69
4.3.4分支嵌套70
4.4循环概述72
4.4.1循环结构72
4.4.2循环分类72
4.5while语句72
4.5.1基本形式72
4.5.2else 语句73
4.5.3无限循环74
4.6for语句74
4.6.1应用序列类型74
4.6.2内置函数range()75
4.7循环嵌套76
4.7.1原理76
4.7.2实现76
4.8辅助语句77
4.8.1break语句77
4.8.2continue语句79
4.8.3pass语句79
第5章Python函数81
5.1函数声明与调用81
5.1.1函数声明81
5.1.2函数调用81
5.1.3函数返回值83
5.2参数传递84
5.2.1实参与形参84
5.2.2传对象引用84
5.3参数分类85
5.3.1**参数85
5.3.2默认参数85
5.3.3关键参数86
5.3.4不定长参数86
5.4两类特殊函数87
5.4.1匿名函数87
5.4.2递归函数88
第6章Python数据科学93
6.1科学计算93
6.2NumPy94
6.2.1认识NumPy94
6.2.2创建数组95
6.2.3查看数组97
6.2.4索引和切片97
6.2.5矩阵运算98
6.3Matplotlib99
6.3.1认识Matplotlib99
6.3.2线形图100
6.3.3散点图101
6.3.4饼状图102
6.3.5直方图102
6.4Pandas103
6.4.1认识Pandas103
6.4.2Series104
6.4.3DataFrame108
6.4.4Index112
6.4.5Plot114
6.5SciPy115
6.5.1认识SciPy115
6.5.2稀疏矩阵115
6.5.3线性代数116
6.6Seaborn117
6.6.1认识Seaborn117
6.6.2图表分类119
第7章Sklearn和NLTK120
7.1Sklearn简介120
7.2安装Sklearn121
7.3数据集122
7.3.1小数据集122
7.3.2大数据集127
7.3.3生成数据集128
7.4机器学习流程132
7.4.1语料清洗132
7.4.2划分数据集132
7.4.3特征工程137
7.4.4机器算法137
7.4.5模型评估137
7.5NLTK简介138
7.6NLTK语料库139
7.6.1inaugural语料库139
7.6.2gutenberg语料库139
7.6.3movie_reviews语料库140
7.7NLTK文本分类141
7.7.1分句分词141
7.7.2停止词142
7.7.3词干提取143
7.7.4词形还原143
7.7.5WordNet144
7.7.6语义相关性145
第8章语料清洗146
8.1认识语料清洗146
8.2清洗策略147
8.2.1一致性检查147
8.2.2格式内容检查147
8.2.3逻辑错误检查147
8.3缺失值清洗147
8.3.1认识缺失值147
8.3.2Pandas处理148
8.3.3Sklearn处理150
8.4异常值清洗151
8.4.1散点图方法151
8.4.2箱线图方法151
8.4.33σ法则153
8.5重复值清洗155
8.5.1NumPy处理155
8.5.2Pandas处理155
8.6数据转换157
8.6.1数据值替换157
8.6.2数据值映射158
8.6.3数据值合并159
8.6.4数据值补充160
8.7Missingno库161
8.7.1认识Missingno库161
8.7.2示例163
8.8词云165
8.8.1认识词云165
8.8.2示例166
第9章特征工程168
9.1特征预处理168
9.1.1归一化168
9.1.2标准化169
9.1.3鲁棒化171
9.1.4正则化171
9.1.5示例172
9.2独热编码176
9.2.1认识独热编码176
9.2.2Pandas实现177
9.2.3Sklearn实现178
9.2.4DictVectorizer179
9.3CountVectorizer180
9.3.1认识CountVectorizer180
9.3.2Sklearn调用CountVectorizer180
9.4TFIDF181
9.4.1认识TFIDF181
9.4.2计算TFIDF181
9.4.3Sklearn调用TFIDF182
第10章中文分词183
10.1概述183
10.1.1简介183
10.1.2特点183
10.2常见中文分词方法184
10.2.1基于规则和词表方法184
10.2.2基于统计方法184
10.2.3基于理解方法185
10.3中文分词困惑185
10.4jieba分词库186
10.4.1认识jieba186
10.4.2三种模式187
10.4.3自定义词典188
10.4.4词性标注189
10.4.5断词位置190
10.4.6关键词抽取190
10.4.7停止词表192
10.5HanLP分词195
10.5.1认识HanLP195
10.5.2pyhanlp196
10.5.3中文分词196
10.5.4依存分析使用197
10.5.5关键词提取198
10.5.6命名实体识别199
10.5.7自定义词典199
10.5.8简体繁体转换200
10.5.9摘要提取200
第11章文本分类202
11.1历史回顾202
11.2文本分类方法202
11.2.1朴素贝叶斯202
11.2.2支持向量机203
11.3贝叶斯定理203
11.4朴素贝叶斯204
11.4.1GaussianNB方法204
11.4.2MultinomialNB方法205
11.4.3BernoulliNB方法207
11.5朴素贝叶斯进行新闻分类208
11.6支持向量机210
11.6.1线性核函数210
11.6.2多项式核函数211
11.6.3高斯核函数212
11.7支持向量机对鸢尾花分类213
11.8垃圾邮件分类216
11.8.1朴素贝叶斯定理实现217
11.8.2Sklearn朴素贝叶斯实现219
第12章文本聚类222
12.1概述222
12.1.1算法原理222
12.1.2流程223
12.2KMeans算法223
12.2.1算法原理223
12.2.2数学理论实现223
12.2.3Python实现225
12.3主成分分析228
12.3.1算法原理228
12.3.2components参数228
12.3.3对鸢尾花数据降维230
12.4KMeans评估指标232
12.4.1调整兰德系数232
12.4.2轮廓系数232
12.5KMeans英文文本聚类235
12.5.1构建DataFrame数据236
12.5.2进行分词和停止词去除236
12.5.3向量化236
12.5.4TFIDF模型236
12.5.5计算余弦相似度237
12.5.6KMeans聚类237
12.6KMeans中文文本聚类237
12.6.1程序流程237
12.6.2程序文件238
12.6.3执行代码238
第13章评价指标242
13.1Sklearn中的评价指标242
13.2混淆矩阵242
13.2.1认识混淆矩阵242
13.2.2Pandas计算混淆矩阵243
13.2.3Sklearn计算混淆矩阵244
13.3准确率244
13.3.1认识准确率244
13.3.2Sklearn计算准确率245
13.4精确率245
13.4.1认识精确率245
13.4.2Sklearn计算精确率245
13.5召回率246
13.5.1认识召回率246
13.5.2Sklearn计算召回率246
13.6F1 Score247
13.6.1认识F1 Score247
13.6.2Sklearn计算F1 Score247
13.7综合实例247
13.7.1数学计算评价指标248
13.7.2Python计算评价指标248
13.8ROC曲线250
13.8.1认识ROC曲线250
13.8.2Sklearn计算ROC曲线251
13.9AUC面积252
13.9.1认识AUC面积252
13.9.2Sklearn计算AUC面积252
13.10分类评估报告253
13.10.1认识分类评估报告253
13.10.2Sklearn计算分类评估报告253
13.11NLP评价指标254
13.11.1中文分词精确率和召回率254
13.11.2未登录词和登录词召回率254
第14章信息提取258
14.1概述258
14.2相关概念258
14.2.1信息258
14.2.2信息熵258
14.2.3信息熵与霍夫曼编码259
14.2.4互信息260
14.3正则表达式260
14.3.1基本语法261
14.3.2re模块261
14.3.3提取电影信息264
14.4命名实体识别266
14.4.1认识命名实体266
14.4.2常见方法266
14.4.3NLTK命名实体识别267
14.4.4Stanford NLP命名实体识别269
14.5马尔可夫模型273
14.5.1认识马尔可夫273
14.5.2隐马尔可夫模型273
第15章情感分析275
15.1概述275
15.1.1认识情感分析275
15.1.2基于词典方法275
15.2情感倾向分析276
15.2.1情感词276
15.2.2程度词276
15.2.3感叹号276
15.2.4否定词276
15.3textblob276
15.3.1分句分词278
15.3.2词性标注278
15.3.3情感分析279
15.3.4单复数279
15.3.5过去式279
15.3.6拼写校正280
15.3.7词频统计280
15.4SnowNLP280
15.4.1分词281
15.4.2词性标注281
15.4.3断句281
15.4.4情绪判断282
15.4.5拼音282
15.4.6繁转简283
15.4.7关键字抽取283
15.4.8摘要抽取283
15.4.9词频和逆文档词频284
15.5Gensim284
15.5.1认识Gensim284
15.5.2认识LDA286
15.5.3Gensim实现LDA286
15.6小说人物情感分析288
15.6.1流程288
15.6.2代码288
15.7电影影评情感分析289
15.7.1流程289
15.7.2代码289
附录A教学大纲292
一、 课程简介292
二、 课程内容及要求292
三、 教学安排及学时分配298
四、 考核方式299
五、 建议教材及参考文献299
参考文献300
作者简介
周元哲,讲师,1974年9月生,硕士。西安邮电学院从事计算机专业科研和教学。讲授《 C程序设计语言》、《数据库原理》、《visual Basic程序设计语言》、《软件测试》《Python程序设计》《软件工程》等课程。
-
全图解零基础word excel ppt 应用教程
¥15.6¥48.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥12.7¥39.8 -
机器学习
¥59.4¥108.0 -
情感计算
¥66.8¥89.0 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥48.3¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
LINUX实战——从入门到精通
¥48.3¥69.0 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
Go 语言运维开发 : Kubernetes 项目实战
¥38.7¥79.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0