- ISBN:9787302660989
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:165
- 出版时间:2024-04-01
- 条形码:9787302660989 ; 978-7-302-66098-9
本书特色
本书结构清晰,分为基础篇、技术篇和应用篇,涵盖了信息检索和搜索引擎的各方面,从基本概念到专业技术,应有尽有。是一本理论与实践相结合的优秀教材,也是一本值得参考的信息检索和搜索引擎的专业指南。
内容简介
为了让读者全面了解信息检索和搜索引擎的基本概念、原理和实现方法,以及相关的研究和应用领域,本书详细阐述了信息检索中的重要问题。 全书共分为3篇,涵盖信息检索和搜索引擎的各个方面: 第1篇(第1~3章)为基础篇,介绍信息检索和搜索引擎的基本概念、原理以及信息采集、文本转换方法;第2篇(第4~6章)为技术篇,涵盖索引创建、用户交互、检索模型与搜索排序等关键技术;第3篇(第7章和第8章)为应用篇,讨论搜索引擎评价和链接分析,展示搜索引擎在不同领域的应用和发展趋势。全书提供了大量应用实例,每章后均附有习题。 通过对这些方面的讲解,读者可以了解信息检索和搜索引擎的相关技术和方法,掌握它们的实现和应用,为信息处理提供更好的解决方案。
目录
1.1什么是信息检索1
1.1.1Web搜索1
1.1.2其他搜索应用2
1.1.3其他信息检索应用3
1.2搜索引擎架构3
1.2.1搜索引擎3
1.2.2基本的构件4
1.3搜索引擎构件及其功能6
1.3.1文本采集6
1.3.2文本转换8
1.3.3索引创建9
1.3.4用户交互10
1.3.5排序11
1.3.6评价12
1.4开源的搜索引擎系统13
1.4.1Lucene13
1.4.2Solr15
1.4.3ElasticSearch15
1.5搜索引擎面对的挑战15
小结17
习题17
第2章信息采集18
2.1网页18
2.1.1网页的特点19
2.1.2网页规模的估计20
2.1.3网页的年龄21〖3〗信息检索与搜索引擎(微课版)目录〖3〗2.2网页爬虫23
2.2.1网页爬虫的定义23
2.2.2网页爬虫的执行流程23
2.2.3设计网页爬虫的原则24
2.2.4网页爬虫的评价指标25
2.2.5爬取策略25
2.2.6深网爬取27
2.3网站地图27
2.4非网页类信息采集28
2.5存储文档29
2.5.1形成摘要29
2.5.2存储摘要29
2.5.3文档更新31
2.5.4网页去重和去噪31
小结34
习题35
第3章文本转换37
3.1文本的统计特征37
3.1.1词频分布37
3.1.2关联网页规模估计39
3.2停用词去除40
3.3词干提取41
3.3.1基于规则的词干提取41
3.3.2基于词典的词干提取43
3.3.3对比词干提取和词形还原43
3.4词素切分44
3.4.1基于字符串匹配的词素切分方法44
3.4.2基于统计的词素切分方法46
3.4.3英文词素切分(N元串)46
3.5文本转换的困难47
3.6文本的向量化表示48
3.6.1离散表示49
3.6.2分布式表示49
小结50
习题50
第4章索引创建52
4.1索引相关定义52
4.1.1单词文档矩阵52
4.1.2单词词典53
4.1.3倒排索引相关概念54
4.1.4倒排索引简单实例56
4.2索引的建立57
4.2.1两遍文档遍历法57
4.2.2排序法58
4.2.3归并法60
4.3索引更新62
4.3.1动态索引62
4.3.2倒排索引的插入62
4.3.3倒排索引的删除66
4.4查询处理方法67
4.4.1Documentatatime67
4.4.2Termatatime69
4.4.3查询优化70
小结72
习题72
第5章用户交互75
5.1信息需求与查询75
5.2查询转换与提炼77
5.2.1停用词去除和词干提取77
5.2.2拼写检查78
5.3查询扩展81
5.3.1基于全局分析的查询扩展81
5.3.2基于相关反馈和伪相关反馈的查询扩展82
5.3.3基于查询日志的查询扩展84
5.4上下文和个性化85
5.5查询推荐86
5.5.1基于文档的方法87
5.5.2基于查询日志的方法89
5.6搜索结果显示92
小结94
习题94
第6章检索模型与搜索排序96
6.1检索模型概述96
6.1.1布尔模型97
6.1.2向量空间模型99
6.1.3BOW模型103
6.1.4Latent Dirichlet Allocation105
6.1.5隐性语义分析106
6.2概率模型108
6.2.1概率检索模型108
6.2.2二元独立模型109
6.2.3BM25模型111
6.3语言模型112
6.3.1OneHot和Word2Vec113
6.3.2CBOW模型113
6.3.3Skipgram模型114
6.4排序模型116
6.4.1KL散度116
6.4.2Learning to Rank算法118
6.5基于机器学习的排序方法120
小结123
习题124
第7章搜索引擎评价126
7.1搜索引擎评价的意义126
7.2搜索引擎评价体系127
7.3效果评价130
7.3.1召回率、精确率、ROC曲线130
7.3.2平均精确率133
7.3.3关注排序靠前的文档134
7.3.4使用用户偏好136
7.4效率评价137
7.5训练、测试和统计138
7.5.1比较评价138
7.5.2显著性检验139
7.5.3*小化判定工作142
7.5.4设置参数值143
小结144
习题144
第8章链接分析146
8.1PageRank算法146
8.1.1什么是PageRank146
8.1.2PageRank的工作原理147
8.1.3PageRank计算148
8.1.4PageRank应用与分析149
8.2HITS算法150
8.2.1什么是HITS150
8.2.2HITS工作原理151
8.2.3HITS算法存在的问题152
8.2.4HITS与PageRank比较153
8.2.5其他改进算法154
8.3网页作弊技术155
8.3.1基于内容的作弊技术156
8.3.2基于链接关系的作弊技术157
8.3.3掩盖技术和重定向技术159
8.4网页反作弊技术160
8.4.1特定类别的作弊页面识别技术161
8.4.2非特定类别的作弊页面识别技术164
小结164
习题165
参考文献166
作者简介
闫琰,中国矿业大学(北京)副教授,硕士生导师。出版专著《基于深度学习的文本表示与分类方法研究》。目前主要从事信息检索、自然语言处理、机器学习、人工智能等领域的教学与研究工作。
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
外国教育史-第2版
¥24.4¥40.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
飞机总体设计
¥46.8¥78.0 -
古代汉语(第四册)
¥16.1¥35.0 -
编辑审稿实务教程
¥35.1¥45.0 -
管理学:原理与方法(第7版)(博学.大学管理类)/周三多
¥30.9¥49.0 -
(平装)北大必修课:北大口才课
¥12.2¥45.0