×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
Python自然语言处理(微课版)

Python自然语言处理(微课版)

1星价 ¥44.0 (6.3折)
2星价¥44.0 定价¥69.8
暂无评论
图文详情
  • ISBN:9787302590699
  • 装帧:70g胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:320
  • 出版时间:2021-11-01
  • 条形码:9787302590699 ; 978-7-302-59069-9

本书特色

1、本书使用Python 3版本的数据分析,如数据分析基础工具的Numpy、数据可视化工具的Matplotlib和Seaborn、数据处理工具的Pandas、数据统计工具的Scipy、机器学习工具的Sklearn以及自然语言处理的相关库。 2、本书代码采用基于Python的各类库实现,全部程序都通过上机调试和运行。在讲解基本理论的基础上加强动手实践能力的培养,让学生在操作中学会Python编程。 3、本书针对机器学习、数据分析、Python相关技术和自然语言处理的初、中级读者,从零开始逐行讲解代码,使其熟悉并实现自然语言处理的基本内容。 4、本书逻辑严谨,内容精练,文字简洁,通俗易懂,实训题目经典实用,综合性强。 5、本书配套资源,读者可登录清华大学出版社官网或扫描书中二维码获取。 以Python为基础讲述机器学习、人工智能和自然语言处理的知识,配套教学大纲、电子课件、源码资源等。

内容简介

本书内容包括自然语言处理概述、Python语言简述、Python数据类型、Python流程控制、Python函数、Python数据科学、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、评价指标、信息提取和情感分析。附录给出教学大纲。 本书采用基于Python语言的Sklearn平台和NLTK实现,便于学生更快地掌握自然语言处理的基本思想。实践是**的学习方法,本书的所有程序都在Anaconda下调试和运行。本书配有源代码、教学课件、语料集、教学大纲、程序安装包、每章的视频讲解等资料。 本书内容精练、文字简洁、结构合理,实训题目经典实用、综合性强,面向初、中级读者,由“入门”起步,侧重“提高”。特别适合作为高等院校自然语言处理和机器学习入门的本科或研究生教材或参考书,也可以供从事人工智能等工作的技术人员应用参考。

目录

目录



第1章自然语言处理概述1

1.1人工智能发展历程1

1.1.1**阶段: 20年黄金时代1

1.1.2第二阶段: **次寒冬1

1.1.3第三阶段: 繁荣期1

1.1.4第四阶段: 第二次寒冬2

1.1.5第五阶段: 稳健时代2

1.2自然语言处理2

1.2.1概述2

1.2.2发展历程3

1.2.3处理流程4

1.2.4研究内容4

1.3机器学习算法6

1.3.1监督学习6

1.3.2无监督学习7

1.4自然语言处理相关库8

1.4.1NumPy8

1.4.2Matplotlib8

1.4.3Pandas8

1.4.4SciPy9

1.4.5NLTK9

1.4.6SnowNLP11

1.4.7Sklearn12

1.5语料库12

1.5.1认识语料库12

1.5.2分类13

1.5.3构建原则13

1.5.4常用语料库13

1.5.5搜狗新闻语料库15第2章Python语言简述19

2.1Python简介19

2.1.1Python发展历程19

2.1.2Python的特点19

2.1.3Python应用场合20

2.2Python解释器21

2.2.1Ubuntu下安装Python21

2.2.2Windows下安装Python21

2.3Python编辑器22

2.3.1IDLE22

2.3.2VS Code23

2.3.3PyCharm23

2.3.4Anaconda24

2.3.5Jupyter 31

2.4代码书写规则32

2.4.1缩进32

2.4.2多行语句33

2.4.3注释33

2.4.4编码习惯33

2.5自学网站34

2.5.1菜鸟网站34

2.5.2廖雪峰学Python网站35

2.5.3Python官方网站35

2.5.4Python  100天从新手到大师网站35

第3章Python数据类型37

3.1变量37

3.1.1变量命名37

3.1.2变量引用38

3.2运算符38

3.2.1算术运算符38

3.2.2关系运算符39

3.2.3赋值运算符40

3.2.4逻辑运算符41

3.2.5位运算符41

3.2.6成员运算符43

3.2.7身份运算符43

3.3表达式43

3.3.1概念43

3.3.2操作44

3.4数据类型44

3.5数字45

3.5.1概念45

3.5.2操作45

3.6字符串46

3.6.1概念46

3.6.2操作46

3.7列表48

3.7.1概念48

3.7.2操作48

3.8元组53

3.8.1概念53

3.8.2操作54

3.9字典55

3.9.1字典的概念55

3.9.2字典操作56

3.9.3字典举例59

3.10集合59

3.10.1集合的概念59

3.10.2集合操作60

3.10.3集合举例61

3.11组合数据类型62

3.11.1相互关系62

3.11.2数据类型转换62

第4章Python流程控制63

4.1流程结构63

4.2顺序结构63

4.2.1输入输出64

4.2.2举例67

4.3选择结构67

4.3.1单分支67

4.3.2双分支68

4.3.3多分支69

4.3.4分支嵌套70

4.4循环概述72

4.4.1循环结构72

4.4.2循环分类72

4.5while语句72

4.5.1基本形式72

4.5.2else 语句73

4.5.3无限循环74

4.6for语句74

4.6.1应用序列类型74

4.6.2内置函数range()75

4.7循环嵌套76

4.7.1原理76

4.7.2实现76

4.8辅助语句77

4.8.1break语句77

4.8.2continue语句79

4.8.3pass语句79

第5章Python函数81

5.1函数声明与调用81

5.1.1函数声明81

5.1.2函数调用81

5.1.3函数返回值83

5.2参数传递84

5.2.1实参与形参84

5.2.2传对象引用84

5.3参数分类85

5.3.1**参数85

5.3.2默认参数85

5.3.3关键参数86

5.3.4不定长参数86

5.4两类特殊函数87

5.4.1匿名函数87

5.4.2递归函数88

第6章Python数据科学93

6.1科学计算93

6.2NumPy94

6.2.1认识NumPy94

6.2.2创建数组95

6.2.3查看数组97

6.2.4索引和切片97

6.2.5矩阵运算98

6.3Matplotlib99

6.3.1认识Matplotlib99

6.3.2线形图100

6.3.3散点图101

6.3.4饼状图102

6.3.5直方图102

6.4Pandas103

6.4.1认识Pandas103

6.4.2Series104

6.4.3DataFrame108

6.4.4Index112

6.4.5Plot114

6.5SciPy115

6.5.1认识SciPy115

6.5.2稀疏矩阵115

6.5.3线性代数116

6.6Seaborn117

6.6.1认识Seaborn117

6.6.2图表分类119

第7章Sklearn和NLTK120

7.1Sklearn简介120

7.2安装Sklearn121

7.3数据集122

7.3.1小数据集122

7.3.2大数据集127

7.3.3生成数据集128

7.4机器学习流程132

7.4.1语料清洗132

7.4.2划分数据集132

7.4.3特征工程137

7.4.4机器算法137

7.4.5模型评估137

7.5NLTK简介138

7.6NLTK语料库139

7.6.1inaugural语料库139

7.6.2gutenberg语料库139

7.6.3movie_reviews语料库140

7.7NLTK文本分类141

7.7.1分句分词141

7.7.2停止词142

7.7.3词干提取143

7.7.4词形还原143

7.7.5WordNet144

7.7.6语义相关性145

第8章语料清洗146

8.1认识语料清洗146

8.2清洗策略147

8.2.1一致性检查147

8.2.2格式内容检查147

8.2.3逻辑错误检查147

8.3缺失值清洗147

8.3.1认识缺失值147

8.3.2Pandas处理148

8.3.3Sklearn处理150

8.4异常值清洗151

8.4.1散点图方法151

8.4.2箱线图方法151

8.4.33σ法则153

8.5重复值清洗155

8.5.1NumPy处理155

8.5.2Pandas处理155

8.6数据转换157

8.6.1数据值替换157

8.6.2数据值映射158

8.6.3数据值合并159

8.6.4数据值补充160

8.7Missingno库161

8.7.1认识Missingno库161

8.7.2示例163

8.8词云165

8.8.1认识词云165

8.8.2示例166

第9章特征工程168

9.1特征预处理168

9.1.1归一化168

9.1.2标准化169

9.1.3鲁棒化171

9.1.4正则化171

9.1.5示例172

9.2独热编码176

9.2.1认识独热编码176

9.2.2Pandas实现177

9.2.3Sklearn实现178

9.2.4DictVectorizer179

9.3CountVectorizer180

9.3.1认识CountVectorizer180

9.3.2Sklearn调用CountVectorizer180

9.4TFIDF181

9.4.1认识TFIDF181

9.4.2计算TFIDF181

9.4.3Sklearn调用TFIDF182

第10章中文分词183

10.1概述183

10.1.1简介183

10.1.2特点183

10.2常见中文分词方法184

10.2.1基于规则和词表方法184

10.2.2基于统计方法184

10.2.3基于理解方法185

10.3中文分词困惑185

10.4jieba分词库186

10.4.1认识jieba186

10.4.2三种模式187

10.4.3自定义词典188

10.4.4词性标注189

10.4.5断词位置190

10.4.6关键词抽取190

10.4.7停止词表192

10.5HanLP分词195

10.5.1认识HanLP195

10.5.2pyhanlp196

10.5.3中文分词196

10.5.4依存分析使用197

10.5.5关键词提取198

10.5.6命名实体识别199

10.5.7自定义词典199

10.5.8简体繁体转换200

10.5.9摘要提取200

第11章文本分类202

11.1历史回顾202

11.2文本分类方法202

11.2.1朴素贝叶斯202

11.2.2支持向量机203

11.3贝叶斯定理203

11.4朴素贝叶斯204

11.4.1GaussianNB方法204

11.4.2MultinomialNB方法205

11.4.3BernoulliNB方法207

11.5朴素贝叶斯进行新闻分类208

11.6支持向量机210

11.6.1线性核函数210

11.6.2多项式核函数211

11.6.3高斯核函数212

11.7支持向量机对鸢尾花分类213

11.8垃圾邮件分类216

11.8.1朴素贝叶斯定理实现217

11.8.2Sklearn朴素贝叶斯实现219

第12章文本聚类222

12.1概述222

12.1.1算法原理222

12.1.2流程223

12.2KMeans算法223

12.2.1算法原理223

12.2.2数学理论实现223

12.2.3Python实现225

12.3主成分分析228

12.3.1算法原理228

12.3.2components参数228

12.3.3对鸢尾花数据降维230

12.4KMeans评估指标232

12.4.1调整兰德系数232

12.4.2轮廓系数232

12.5KMeans英文文本聚类235

12.5.1构建DataFrame数据236

12.5.2进行分词和停止词去除236

12.5.3向量化236

12.5.4TFIDF模型236

12.5.5计算余弦相似度237

12.5.6KMeans聚类237

12.6KMeans中文文本聚类237

12.6.1程序流程237

12.6.2程序文件238

12.6.3执行代码238

第13章评价指标242

13.1Sklearn中的评价指标242

13.2混淆矩阵242

13.2.1认识混淆矩阵242

13.2.2Pandas计算混淆矩阵243

13.2.3Sklearn计算混淆矩阵244

13.3准确率244

13.3.1认识准确率244

13.3.2Sklearn计算准确率245

13.4精确率245

13.4.1认识精确率245

13.4.2Sklearn计算精确率245

13.5召回率246

13.5.1认识召回率246

13.5.2Sklearn计算召回率246

13.6F1 Score247

13.6.1认识F1 Score247

13.6.2Sklearn计算F1 Score247

13.7综合实例247

13.7.1数学计算评价指标248

13.7.2Python计算评价指标248

13.8ROC曲线250

13.8.1认识ROC曲线250

13.8.2Sklearn计算ROC曲线251

13.9AUC面积252

13.9.1认识AUC面积252

13.9.2Sklearn计算AUC面积252

13.10分类评估报告253

13.10.1认识分类评估报告253

13.10.2Sklearn计算分类评估报告253

13.11NLP评价指标254

13.11.1中文分词精确率和召回率254

13.11.2未登录词和登录词召回率254

第14章信息提取258

14.1概述258

14.2相关概念258

14.2.1信息258

14.2.2信息熵258

14.2.3信息熵与霍夫曼编码259

14.2.4互信息260

14.3正则表达式260

14.3.1基本语法261

14.3.2re模块261

14.3.3提取电影信息264

14.4命名实体识别266

14.4.1认识命名实体266

14.4.2常见方法266

14.4.3NLTK命名实体识别267

14.4.4Stanford NLP命名实体识别269

14.5马尔可夫模型273

14.5.1认识马尔可夫273

14.5.2隐马尔可夫模型273

第15章情感分析275

15.1概述275

15.1.1认识情感分析275

15.1.2基于词典方法275

15.2情感倾向分析276

15.2.1情感词276

15.2.2程度词276

15.2.3感叹号276

15.2.4否定词276

15.3textblob276

15.3.1分句分词278

15.3.2词性标注278

15.3.3情感分析279

15.3.4单复数279

15.3.5过去式279

15.3.6拼写校正280

15.3.7词频统计280

15.4SnowNLP280

15.4.1分词281

15.4.2词性标注281

15.4.3断句281

15.4.4情绪判断282

15.4.5拼音282

15.4.6繁转简283

15.4.7关键字抽取283

15.4.8摘要抽取283

15.4.9词频和逆文档词频284

15.5Gensim284

15.5.1认识Gensim284

15.5.2认识LDA286

15.5.3Gensim实现LDA286

15.6小说人物情感分析288

15.6.1流程288

15.6.2代码288

15.7电影影评情感分析289

15.7.1流程289

15.7.2代码289

附录A教学大纲292

一、 课程简介292

二、 课程内容及要求292

三、 教学安排及学时分配298

四、 考核方式299

五、 建议教材及参考文献299

参考文献300


展开全部

作者简介

周元哲,讲师,1974年9月生,硕士。西安邮电学院从事计算机专业科研和教学。讲授《 C程序设计语言》、《数据库原理》、《visual Basic程序设计语言》、《软件测试》《Python程序设计》《软件工程》等课程。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航