
包邮机械工业出版社ELASTICSEARCH搜索引擎开发实战

- ISBN:9787111603481
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:239
- 出版时间:2017-05-01
- 条形码:9787111603481 ; 978-7-111-60348-1
本书特色
深入剖析大规模分布式搜索引擎的实现原理,详解Elasticsearch开发搜索引擎的相关技术 涵盖大数据搜索引擎融合、自然语言处理与搜索引擎融合、Spring Boot与Vue.js前端融合等相关技术 详解57个经典实例、3个综合项目案例、25个原理图 详解多个搜索算法,每个算法都有广泛的应用前景 通过大量实例和综合案例手把手带领读者快速上手 书中的实例和综合案例大多来源于作者负责的实际项目 本书精华内容: 基于中文分词的中文搜索算法 基于字词混合索引的搜索算法 英文分词算法 英文句子切分算法 Word2vec实现算法 人脸识别融合 CURL爬虫算法 OkHttp爬虫 EM算法实现词对齐 CRC32算法检验文件完整性 Netty通信框架分析 Zen发现机制 Spring Boot MVC开发Web应用 Vue.js开发前端应用 Elasticsearch生成JSON串 双语句对搜索案例 内容管理系统站内检索案例 药物临床试验项目信息爬虫案例 本书配套资源: 本书配套教学PPT 本书源代码文件 本书涉及的一些开发工具的安装包
内容简介
本书结合Elasticsearch在工程中的实际应用,详细介绍了使用Elasticsearch开发支持中文和英文搜索引擎的相关技术,从而实现系统监控。本书共分为8章,内容涵盖了Elasticsearch搜索引擎开发的环境安装与配置,实现一个简单的网站搜索;开发中文搜索引擎;Mapping详解;源代码分析;提高搜索相关性;使用SpringBoot开发搜索界面;使用Elasticsearch和相关软件实现系统监控;搜索引擎开发案例分析。本书很好适合信息检索技术爱好者、搜索引擎开发人员和搜索引擎优化(SEO)人员阅读,也适合作为高等院校信息检索课程的教材或教学参考书。
目录
前言
第1章 Elasticsearch开发搜索引擎应用1
1.1 搜索引擎开发需求1
1.2 准备开发环境1
1.2.1 Windows命令行cmd1
1.2.2 在Windows下使用Java3
1.2.3 Linux终端5
1.2.4 在Linux下使用Java9
1.2.5 Eclipse集成开发环境10
1.3 了解Elasticsearch10
1.3.1 JSON数据格式11
1.3.2 Elasticsearch基本概念12
1.3.3 HTTP协议13
1.4 Elasticsearch安装和配置16
1.4.1 安装Elasticsearch16
1.4.2 运行Elasticsearch作为服务进程19
1.5 实现一个简单的网站搜索21
1.5.1 定义索引结构23
1.5.2 导入数据26
1.5.3 查询API27
1.5.4 实现搜索界面29
1.6 本章小结35
第2章 开发中文搜索引擎36
2.1 中文分词原理36
2.1.1 *长匹配方法36
2.1.2 自己写分析器42
2.1.3 概率语言模型的分词方法44
2.1.4 中文分词插件原理52
2.1.5 开发中文分词插件54
2.1.6 支持Elasticsearch的插件57
2.1.7 中文分析器提供者59
2.1.8 字词混合索引61
2.2 提高分词准确度63
2.3 本章小结65
第3章 Mapping详解66
3.1 索引模式66
3.1.1 创建模式66
3.1.2 修改模式68
3.2 Mapping数据类型69
3.3 Mapping参数70
3.4 动态Mapping71
3.4.1 使用动态Mapping72
3.4.2 实现原理72
3.5 本章小结74
第4章 深入源码分析75
4.1 Lucene源码分析75
4.1.1 使用Lucene75
4.1.2 Ivy管理依赖项77
4.1.3 源码结构介绍77
4.1.4 并发控制82
4.2 启动搜索服务88
4.3 Guice框架89
4.4 日期和时间库——Joda-Time91
4.5 Transport模块91
4.6 线程池92
4.7 模块93
4.8 Netty通信框架93
4.9 缓存94
4.10 分布式95
4.11 Zen发现机制95
4.12 联合搜索97
4.13 JVM字节码98
4.13.1 编译代码99
4.13.2 同步相关指令99
4.14 本章小结100
第5章 提高搜索相关性102
5.1 向量空间检索模型102
5.2 BM25检索模型105
5.2.1 使用BM25检索模型108
5.2.2 参数调优108
5.3 学习评分109
5.3.1 基本原理109
5.3.2 准备数据110
5.3.3 Elasticsearch学习排名112
5.4 查询意图识别112
5.5 图像特征提升检索体验113
5.6 本章小结116
第6章 搜索界面开发118
6.1 使用Searchkit实现搜索界面118
6.2 Spring Boot入门122
6.2.1 可执行的WAR125
6.2.2 spring-boot-devtools模块实现热部署136
6.3 Java模板引擎Pebble介绍136
6.4 通过Spring-data-elasticsearch 项目访问Elasticsearch141
6.5 REST基本概念149
6.6 使用Vue.js开发搜索界面154
6.7 使用Vue.js Paginator插件实现翻页157
6.8 实现搜索接口161
6.8.1 编码识别161
6.8.2 布尔搜索163
6.8.3 搜索结果重定向164
6.8.4 搜索结果排序165
6.8.5 实现相似文档搜索166
6.9 Suggester搜索词提示167
6.9.1 拼音提示169
6.9.2 部署总结169
6.9.3 相关搜索170
6.9.4 再次查找172
6.9.5 搜索日志172
6.10 Word2vec挖掘相关搜索词174
6.11 部署网站179
6.11.1 部署到Web服务器179
6.11.2 防止攻击181
6.12 使用Rust开发搜索界面184
6.13 本章小结184
第7章 Elastic栈系统监控186
7.1 管理Elasticsearch集群186
7.1.1 写入权限控制187
7.1.2 使用X-Pack188
7.1.3 快照189
7.2 Logstash数据处理工具190
7.2.1 使用Logstash190
7.2.2 插件192
7.2.3 数据库输入插件192
7.2.4 开发插件193
7.3 Filebeat文件收集器193
7.4 消息过期194
7.5 Kibana可视化平台195
7.6 Flume日志收集系统196
7.7 Kafka分布式流平台197
7.8 Graylog日志管理平台198
7.9 本章小结202
第8章 案例分析204
8.1 双语句对搜索204
8.1.1 爬虫抓取双语句对204
8.1.2 英文分词205
8.1.3 句子切分205
8.1.4 标注词性207
8.1.5 词对齐209
8.1.6 索引数据213
8.2 内容管理系统站内检索214
8.2.1 MySQL数据库214
8.2.2 RESTful API管理索引215
8.2.3 自动客服机器人217
8.3 搜索文档225
8.3.1 爬虫抓取信息225
8.3.2 在Linux下使用.NET233
8.3.3 NEST客户端235
8.4 本章小结239
参考文献240
作者简介
罗刚 毕业于吉林大学。猎兔搜索创始人、IT培训讲师。曾经担任新东方创新研究院研究员,并担任首都师范大学研究生兼职讲师。创立猎兔搜索后带领团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统及互联网信息监测系统等,实现了互联网信息的采集、过滤、挖掘、搜索和实时监测。编写并出版了《自己动手写搜索引擎》《自己动手写网络爬虫》《使用C#开发搜索引擎》《网络爬虫全解析》等技术书籍。 张子宪 曾经在美国北乔治亚大学从事语言信息处理方面的研究和教学工作。现任教于聊城大学,从事自然语言处理的研究和教学工作,并从事机器翻译和计算机辅助翻译等领域的研究。在《中国科技论文》等核心期刊上发表过多篇论文。
-
造神:人工智能神话的起源和破除 (精装)
¥32.7¥88.0 -
硅谷之火-人与计算机的未来
¥15.5¥39.8 -
过程控制技术(第2版高职高专规划教材)
¥27.6¥38.0 -
专业导演教你拍好短视频
¥13.8¥39.9 -
系统性创新手册(管理版)
¥42.6¥119.0 -
计算机网络技术
¥25.7¥33.0 -
深入浅出软件架构
¥117.2¥186.0 -
软件设计的哲学(第2版)
¥54.0¥69.8 -
大数据技术导论(第2版)
¥28.9¥41.0 -
人工智能的底层逻辑
¥55.3¥79.0 -
剪映+PREMIERE+AIGC 短视频制作速成
¥73.5¥98.0 -
人人都能学AI
¥39.8¥68.0 -
剪映AI
¥52.0¥88.0 -
数据挖掘技术与应用
¥46.0¥75.0 -
数据采集与处理
¥36.4¥49.8 -
PLC结构化文本编程(第2版)
¥56.3¥79.0 -
中小型网络组建与管理
¥30.7¥43.0 -
上海市老年教育推荐用书:老年人智慧生活(进阶篇)
¥32.5¥45.0 -
上海市老年教育推荐用书:老年人智慧生活(初级篇)
¥29.3¥45.0 -
SOLIDWORKS中文版实用教程
¥104.9¥149.9