- ISBN:9787302617747
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:236
- 出版时间:2023-03-01
- 条形码:9787302617747 ; 978-7-302-61774-7
本书特色
● 深入浅出 在系统阐述理论的同时,深入浅出地结合前沿论文、代码实践及合适的应用场景,为读者提供通俗易懂的自然语言处理任务的环境和案例。 ● 衔接连贯 采用同一套代码框架贯穿全书,强调知识体系的全面性和可拓展性,注重理论与实践的前后连贯性。 ● 技术前沿 介绍自然语言处理的起源与发展、文本分类、机器阅读理解、命名实体识别、文本生成、模型蒸馏与剪枝等前沿技术,激发读者学习兴趣,开拓读者视野。
内容简介
本书系统阐述自然语言处理基础知识,以及自然语言处理高级模型应用等高级知识。 全书共11章:第1~5章为自然语言处理的基础知识,第6~11章则将自然语言处理知识应用于实战。书中主要内容包括预训练模型、文本分类、机器阅读理解、命名实体识别、文本生成、模型蒸馏与剪枝及损失函数等知识。 书中包含大量应用示例,不仅可以学会理论知识还可以灵活应用。书中示例基于Linux与PyTorch环境开发,读者在学习自然语言处理知识的同时还可学会PyTorch框架技术,内容完整、步骤清晰,提供了工程化的解决方案。 本书可作为有一定深度学习基础的读者的入门书,也可作为从事自然语言处理算法工作的技术人员及培训机构的参考书。
目录
目录
本书源代码
目录
第1章导论(13min)
1.1基于深度学习的自然语言处理
1.2本书章节脉络
1.3自然语言处理算法流程
1.4小结
第2章Python开发环境配置(35min)
2.1Linux服务器
2.1.1MobaXterm
2.1.2使用MobaXterm连接远程服务器
2.1.3在服务器上安装Python开发环境
2.1.4使用Anaconda国内源
2.1.5pip设定永久阿里云源
2.2Python虚拟环境
2.3PyCharm远程连接服务器
2.4screen任务管理
2.5Docker技术
2.6小结
第3章自然语言处理的发展进程
3.1人工规则与自然语言处理
3.2机器学习与自热语言处理
3.2.1词袋模型
3.2.2ngram
3.2.3频率与逆文档频率
3.3深度学习与自然语言处理
3.4小结
第4章无监督学习的原理与应用(30min)
4.1浅层无监督预训练模型
4.2深层无监督预训练模型
4.2.1BERT
4.2.2SelfAttention Layer原理
4.2.3SelfAttention Layer的内部运算逻辑
4.2.4MultiHead SelfAttention
4.2.5Layer Normalization
4.2.6BERT预训练
4.2.7BERT的微调过程
4.3其他预训练模型
4.3.1RoBERTa
4.3.2ERNIE
4.3.3BERT_WWM
4.3.4ALBERT
4.3.5Electra
4.3.6NEZHA
4.3.7NLP预训练模型对比
4.4自然语言处理四大下游任务
4.4.1句子对分类任务
4.4.2单句子分类任务
4.4.3问答任务
4.4.4单句子标注任务
4.5小结
第5章无监督学习进阶
5.1生成式对抗网络
5.2元学习
5.2.1MetricBased Method
5.2.2ModelBased Method
5.2.3PretrainBased Method
5.3小结
第6章预训练
6.1赛题任务
6.2环境搭建
6.3代码框架
6.4数据分析实践
6.4.1数据预处理
6.4.2预训练任务模型构建与数据生成
6.4.3模型训练
6.5小结
第7章文本分类(45min)
7.1数据分析
7.2环境搭建
7.3代码框架
7.4文本分类实践
7.4.1数据预处理
7.4.2模型构建
7.4.3数据迭代器
7.4.4模型训练
7.4.5模型预测
7.5小结
第8章机器阅读理解(16min)
8.1机器阅读理解的定义
8.1.1完形填空
8.1.2多项选择
8.1.3片段抽取
8.1.4自由回答
8.1.5其他任务
8.2评测方法
8.3研究方法
8.3.1基于规则的方法
8.3.2基于神经网络的方法
8.3.3基于深层语义的图匹配方法
8.4经典结构
8.4.1BiDAF模型
8.4.2QANet模型
8.4.3基于BERT模型的机器阅读理解
8.5多文档机器阅读理解实践
8.5.1疫情政务问答助手
8.5.2信息检索
8.5.3多任务学习
8.5.4实践
8.6小结
第9章命名实体识别(15min)
9.1NER技术的发展现状
9.2命名实体识别的定义
9.3命名实体识别模型
9.3.1预训练模型
9.3.2下接结构
9.3.3条件随机场
9.4命名实体识别实验
9.4.1数据介绍
9.4.2评估指标
9.4.3数据预处理
9.4.4模型构建
9.4.5数据迭代器
9.4.6模型训练
9.4.7模型预测
9.5小结
第10章文本生成(26min)
10.1文本生成的发展现状
10.1.1文本生成模板
10.1.2变分自编码器
10.1.3序列到序列技术
10.2基于预训练模型的文本生成模型
10.3文本生成任务实践
10.3.1数据介绍
10.3.2评估指标
10.3.3模型构建
10.3.4数据迭代器
10.3.5模型训练
10.3.6模型预测
10.4小结
第11章损失函数与模型瘦身
11.1损失函数
11.2常用的损失函数
11.2.1回归
11.2.2分类
11.3损失函数的进阶
11.3.1样本不均衡
11.3.2Focal Loss
11.3.3Dice Loss
11.3.4拒识
11.3.5带噪学习
11.4模型瘦身
11.4.1知识蒸馏
11.4.2模型剪枝
11.5小结
作者简介
王志立,自然语言处理工程师,曾在国际与国内的学术会议上发表学术论文多篇,先后在腾讯等多家知名企业从事大数据与人工智能算法工作,运营和分享人工智能相关知识,曾获得多项人工智能比赛国j级奖项。 雷鹏斌,深圳大学硕士,华为AI算法工程师,主要从事chatops、知识图谱的研究与应用工作,对自然语言处理各项任务的研究与应用具有经验丰富。2019—2021年在国内知名竞赛的文本分类、命名实体识别、机器阅读理解、智能问答,以及文本生成任务中摘获大量荣誉。曾参与多项课题研究,在AAAI、中文信息学报等高影响力会议上发表多篇文章。 吴宇凡,腾讯算法应用研究员,长期从事业务安全和金融量化相关算法研究和实践,已发表国际顶级会议论文多篇,申请专利数篇。
-
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
机器学习
¥59.4¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
软件设计的哲学(第2版)
¥51.0¥69.8 -
智能算法优化及其应用
¥52.4¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0 -
WPS办公软件应用
¥25.2¥36.0 -
格拉斯曼流行学习及其在图像集分类中的应用
¥13.7¥28.0 -
轻松上手AIGC:如何更好地向CHATGPT提问
¥40.3¥62.0 -
元宇宙的理想与现实:数字科技大成的赋能与治理逻辑
¥61.6¥88.0 -
云原生安全:攻防与运营实战
¥66.8¥89.0