×
暂无评论
图文详情
  • ISBN:9787115234247
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:369页
  • 出版时间:2010-09-01
  • 条形码:9787115234247 ; 978-7-115-23424-7

本书特色

《信息检索导论》从计算机科学领域的角度出发,介绍了信息检索的基础知识,并对当前信息检索的发展做了回顾,重点介绍了搜索引擎的核心技术,如文档分类和文档聚类问题,以及机器学习和数值计算方法。书中所有重要的思想都用示例进行了解释,生动形象,引人入胜,实现了理论与实战的完美结合《信息检索导论》的三位作者均是信息检索领域的顶级专家,两位来自学术教育界,一位来自硅谷业界,使《信息检索导论》既具备深厚的理论基础,又代表了尖端科技水准。因此,该书甫一出版,即被奉为该领域的权威著作,备受瞩目。目前已被众多世界名校采用为信息检索课程的教材。

内容简介

本书是一本讲授信息检索的经典教材。全书共21章,前8章详述了信息检索的基础知识,包括倒排索引、布尔检索及词项权重计算和评分算法等,后13章介绍了一些高级话题,如基于语言建模的信息检索模型、基于机器学习的排序方法和Web搜索技术等。另外,本书还着重讨论了文本聚类技术这一信息检索中不可或缺的组成部分。全书语言流畅,由浅入深,一气呵成。本书适合作为高等院校相关专业高年级本科生和研究生的课程教材,也可供信息检索领域的研究人员和专业人士参考。

目录

第1章 布尔检索1.1 一个信息检索的例子1.2 构建倒排索引的初体验1.3 布尔查询的处理1.4 对基本布尔操作的扩展及有序检索1.5 参考文献及补充读物第2章 词项词典及倒排记录表2.1 文档分析及编码转换2.1.1 字符序列的生成2.1.2 文档单位的选择2.2 词项集合的确定2.2.1 词条化2.2.2 去除停用词2.2.3 词项归一化2.2.4 词干还原和词形归并2.3 基于跳表的倒排记录表快速合并算法2.4 含位置信息的倒排记录表及短语查询2.4.1 二元词索引2.4.2 位置信息索引2.4.3 混合索引机制2.5 参考文献及补充读物第3章 词典及容错式检索3.1 词典搜索的数据结构3.2 通配符查询3.2.1 一般的通配符查询3.2.2 支持通配符查询的K-gram索引3.3 拼写校正3.3.1 拼写校正的实现3.3.2 拼写校正的方法3.3.3 编辑距离3.3.4 拼写校正中的K-gram索引3.3.5 上下文敏感的拼写校正3.4 基于发音的校正技术3.5 参考文献及补充读物第4章 索引构建4.1 硬件基础4.2 基于块的排序索引方法4.3 内存式单遍扫描索引构建方法4.4 分布式索引构建方法4.5 动态索引构建方法4.6 其他索引类型4.7 参考文献及补充读物第5章 索引压缩5.1 信息检索中词项的统计特性5.1.1 Heaps定律:词项数目的估计5.1.2 zipfd定律:对词项的分布建模5.2 词典压缩5.2.1 将词典看成单一字符串的压缩方法5.2.2 按块存储5.3 倒排记录表的压缩5.3.1 可变字节码5.3.2 y编码5.4 参考文献及补充读物第6章 文档评分、词项权重计算及向量空间模型6.1 参数化索引及域索引6.1.1 域加权评分6.1.2 权重学习6.1.3 *优权重g的计算6.2 词项频率及权重计算6.2.1 逆文档频率6.2.2 tf-idf权重计算6.3 向量空间模型6.3.1 内积6.3.2 查询向量6.3.3 向量相似度计算6.4 其他tf-idf权重计算方法6.4.1 tf的亚线性尺度变换方法6.4.2 基于*大值的tf归一化6.4.3 文档权重和查询权重机制6.4.4 文档长度的回转归一化6.5 参考文献及补充读物第7章 一个完整搜索系统中的评分计算7.1 快速评分及排序7.1.1 非精确返回前脯文档的方法7.1.2 索引去除技术7.1.3 胜者表7.1.4 静态得分和排序7.1.5 影响度排序7.1.6 簇剪枝方法7.2 信息检索系统的组成7.2.1 层次型索引7.2.2 查询词项的邻近性7.2.3 查询分析及文档评分函数的设计7.2.4 搜索系统的组成7.3 向量空间模型对各种查询操作的支持7.3.1 布尔查询7.3.2 通配符查询7.3.3 短语查询7.4 参考文献及补充读物第8章 信息检索的评价8.1 信息检索系统的评价8.2 标准测试集8.3 无序检索结果集合的评价8.4 有序检索结果的评价方法8.5 相关性判定8.6 更广的视角看评价:系统质量及用户效用8.6.1 系统相关问题8.6.2 用户效用8.6.3 对已有系统的改进8.7 结果片段8.8 参考文献及补充读物第9章 相关反馈及查询扩展9.1 相关反馈及伪相关反馈9.1.1 Rocchio相关反馈算法9.1.2 基于概率的相关反馈方法9.1.3 相关反馈的作用时机9.1.4 Web上的相关反馈9.1.5 相关反馈策略的评价9.1.6 伪相关反馈9.1.7 间接相关反馈9.1.8 小结9.2 查询重构的全局方法9.2.1 查询重构的词汇表工具9.2.2 查询扩展9.2.3 同义词词典的自动构建9.3 参考文献及补充读物第10章 XML检索10.1 XML的基本概念10.2 XML检索中的挑战性问题10-3基于向量空间模型的XML检索10.4 XML检索的评价10.5 XML检索:以文本为中心与以数据为中心的对比10.6 参考文献及补充读物第11章 概率检索模型11.1 概率论基础知识11.2 概率排序原理11.2.1 I/O风险的情况11.2.2 基于检索代价的概率排序原理11.3 二值独立模型11.3.1 排序函数的推导11.3.2 理论上的概率估计方法11.3.3 实际中的概率估计方法11.3.4 基于概率的相关反馈方法11.4 概率模型的相关评论及扩展11.4.1 概率模型的评论11.4.2 词项之间的树型依赖11.4.3 OkapiBM25:一个非二值的模型11.4.4 IR中的贝叶斯网络方法11.5 参考文献及补充读物第12章 基于语言建模的信息检索模型12.1 语言模型12.1.1 有穷自动机和语言模型12.1.2 语言模型的种类12.1.3 词的多项式分布12.2 查询似然模型12.2.1 IR中的查询似然模型12.2.2 查询生成概率的估计12.2.3 Ponte和Croft进行的实验12.3 语言建模的方法与其他检索方法的比较12.4 扩展的LM方法12.5 参考文献及补充读物第13章 文本分类及朴素贝叶斯方法13.1 文本分类问题13.2 朴素贝叶斯文本分类13.3 贝努利模型13.4 NB的性质13.5 特征选择13.5.1 互信息13.5.2 X2统计量13.5.3 基于频率的特征选择方法13.5.4 多类问题的特征选择方法13.5.5 不同特征选择方法的比较13.6 文本分类的评价13.7 参考文献及补充读物第14章 基于向量空间模型的文本分类14.1 文档表示及向量空间中的关联度计算14.2 Rocchio分类方法14.3 K近邻分类器-14.4 线性及非线性分类器14.5 多类问题的分类14.6 偏差一方差折中准则14.7 参考文献及补充读物第15章 支持向量机及文档机器学习方法15.1 二类线性可分条件下的支持向量机15.2 支持向量机的扩展15.2.1 软间隔分类15.2.2 多类情况下的支持向量机15.2.3 非线性支持向量机15.2.4 实验结果15.3 有关文本文档分类的考虑15.3.1 分类器类型的选择15.3.2 分类器效果的提高15.4 adhoc检索中的机器学习方法15.4.1 基于机器学习评分的简单例子15.4.2 基于机器学习的检索结果排序15.5 参考文献及补充读物第16章 扁平聚类16.1 信息检索中的聚类应用16.2 问题描述16.3 聚类算法的评价16.4 K-均值算法16.5 基于模型的聚类16.6 参考文献及补充读物第17章 层次聚类17.1 凝聚式层次聚类17.2 单连接及全连接聚类算法17.3 组平均凝聚式聚类17.4 质心聚类17.5 层次凝聚式聚类的*优性17.6 分裂式聚类17.7 簇标签生成17.8 实施中的注意事项17.9 参考文献及补充读物第18章 矩阵分解及隐性语义索引18.1 线性代数基础18.2 词项一文档矩阵及SVD18.3 低秩逼近18.4 LSI18.5 参考文献及补充读物第19章 Web搜索基础19.1 背景和历史19.2 Web的特性19.2.1 Web图19.2.2 作弊网页19.3 广告经济模型19.4 搜索用户体验19.5 索引规模及其估计19.6 近似重复及shingling19.7 参考文献及补充读物第20章 Web采集及索引20.1 概述20.1.1 采集器必须提供的功能特点20.1.2 采集器应该提供的功能特点20.2 采集20.2.1 采集器架构20.2.2 DNS解析20.2.3 待采集URL池20.3 分布式索引20.4 连接服务器20.5 参考文献及补充读物第21章 链接分析21.1 Web图21.2 PageRank21.2.1 马尔科夫链21.2.2 PageRank的计算21.2.3 面向主题的PageRank21.3Hub网页及Authority网页21.4 参考文献及补充读物参考文献索引
展开全部

节选

《信息检索导论》是一本讲授信息检索的经典教材。全书共21章,前8章详述了信息检索的基础知识,包括倒排索引、布尔检索及词项权重计算和评分算法等,后13章介绍了一些高级话题,如基于语言建模的信息检索模型、基于机器学习的排序方法和Web搜索技术等。另外,《信息检索导论》还着重讨论了文本聚类技术这一信息检索中不可或缺的组成部分。全书语言流畅,由浅入深,一气呵成。《信息检索导论》适合作为高等院校相关专业高年级本科生和研究生的课程教材,也可供信息检索领域的研究人员和专业人士参考。

相关资料

插图:本章我们主要关注如何建立倒排索引,我们将这个过程称为索引构建(index construction或indexing),而将构建索引的程序或计算机称为索引器(indexer)。索引构建算法的设计受硬件的配置所制约,因此本章首先将介绍与索引构建相关的计算机硬件的基本知识。然后,4.2节将介绍一种面向静态文档集的高效单机索引算法——基于块的排序索引构建算法,它可以看作是第1章基于排序的基本索引算法的一个更具扩展性的版本。4-3节将介绍内存式单遍扫描索引构建算法,和4.2节的算法相比,由于它并不将词汇表都加载到内存中,因此更具扩展性。对于像Web一样的大规模的文档集合,就要考虑如何在成百上千台计算机构成的计算机集群上进行分布式索引构建。因此,4.4节我们将介绍分布式索引构建。另外,很多文档集会动态变化,这种情况下我们要考虑动态索引的构建,以便将文档集的变化即时反映到索引中。4.5节将介绍动态索引构建。*后,在4.6节,我们讨论在索引构建中可能会遇到的一些复杂情况,如安全性和排序式检索中的索引问题。

作者简介

作者:(美国)曼宁(Christopher D .Manning) (美国)拉哈万(Prabhakar Raghavan) (德国)舒策(Hinrich Schutze) 译者:王斌Christopher D .Manning,1989年毕业于澳大利亚国立大学,1995年获斯坦福大学语言学博士学位。曾先后在卡内基-梅隆大学、悉尼大学教授语言学。1999年起任斯坦福大学计算机科学和语言学副教授,其主要研究方向是统计自然语言处理、信息提取与表示,以及文本理解和文本挖掘等。Prabhakar Raghavan,毕业于印度理工学院,后获加州大学伯克利分校计算机科学博士学位,自2005年起担任Yahoo!研究中心负责人,同时也是斯坦福大学计算机科学系顾问教授其主要研究方向是文本及Web数据挖掘、组合优化、随机算法等,此前曾任Vetity公司CTO,在IBM研究院担任过管理工作。Hinrich Schuze,斯坦福大学博士,现任斯图加特大学自然语言处理研究所理论计算语言学主任他在美国硅谷工作过多年。曾担任过Enkata公司首席科学家。王斌,博士,中国科学院计算技术研究所前瞻研究实验室信息检索课题组组长,副研究员,博士生导师。主持国家973、863、国家自然科学基金、国际合作基金、部委及企业合作等课题20余项,在包括SIGIR、CIKM、EMNLP等在内的会议和刊物上发表学术论文100余篇。担任CIKM、AIRS、CCIR、SEWM等国际国内会议的程序委员会委员,同时是ACM和IEEE会员、中国计算机学会高级会员、中国中文信息学会会员、中文信息学会信息检索专业委员会委员及《中文信息学报》编委。自2006年起在中国科学院研究生院讲授《现代信息检索》研究生课程,迄今培养博士、硕士研究生近30名。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航