大数据搜索与挖掘
温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口有划线标记、光盘等附件不全详细品相说明>>
- ISBN:9787030403186
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:292
- 出版时间:2014-05-01
- 条形码:9787030403186 ; 978-7-03-040318-6
本书特色
《大数据搜索与挖掘》以作者张华平、高凯、黄河燕、赵燕平团队十余年在大数据搜索与挖掘领域所作的研究与应用工作为内容,介绍大数据搜索与挖掘的研发成果,内容涵盖大数据处理概论、中文自然语言处理、网络信息预处理、网络情报挖掘(包括网络语言分析、新特征语言抽取、汉语词法分析、文本自动分类、自动聚类、自动摘要、关键词抽取)、网络精准搜索(信息检索模型、句子搜索)、人物搜索等方面的研究成果。从大数据这座金矿中挖掘有价值的信息,是本书的目的所在。全书体系完整,内容新颖,条理清晰,组织合理,理论与实践并重,突出原创的研究成果与实际应用。 《大数据搜索与挖掘》可为高校计算机专业、计算机语言学专业和人工智能专业等师生的教学和科研工作提供帮助,也可为从事大数据搜索与挖掘、中文自然语言处理、信息检索与搜索引擎技术研发的工程技术人员和希望了解上述技术的爱好者等提供参考。
内容简介
主要以作者十余年在工业控制网搜索与挖掘领域所作的研究与应用工作为内容,全面介绍我们在工业控制网信息预处理、挖掘(包括:工业控制网络分析、新特征抽取、分类等)、搜索等方面的研究成果,并介绍在工业网,包括中国邮政、中国证监会、四维图新等单位的实际应用案例。专著突出自己的研究成果为主,理论与实践并重,强调技术工程实现与实际应用。
目录
序
前言
第1章 绪论
1.1 大数据
1.2 云计算及hadoop简介
1.3 web搜索、全文索引与lucene简介
1.3.1 web搜索
1.3.2 全文索引
1.3.3 lucene简介
1.4 大数据挖掘
1.5 本书主要内容及其知识点
1.6 本章小结
参考文献
第2章 大数据搜索挖掘综述
2.1 常用的信息检索模型
2.1.1 传统布尔检索与扩展布尔检索模型
2.1.2 向量空间模型
2.1.3 概率检索模型
2.1.4 语言模型
2.2 自然语言理解与处理概述
2.3 中文词法分析中的分词处理
2.3.1 基于词典和规则的汉字分词
2.3.2 基于大规模语料库的统计学习的分词方法
2.3.3 规则和统计方法相结合的汉字分词方法
2.4 未登录词及其识别
2.4.1 命名实体及其识别
2.4.2 未登录词与新词识别
2.5 有意义串及其识别
2.6 词典组织与管理
2.6.1 基于trie索引树的词典管理
2.6.2 基于哈希表的词典管理
2.7 文本分类
2.8 文本聚类
2.8.1 文本表示
2.8.2 相似度度量
2.8.3 聚类算法体系
2.9 话题识别与跟踪
2.10 句子及其检索
2.10.1 传统的文档检索方法
2.10.2 信息过滤方法
2.10.3 分类方法
2.10.4 语义比较方法
2.10.5 隐马尔可夫模型方法
2.10.6 自动文摘方法
2.11 句子级新信息检测
2.11.1 词重叠度
2.11.2 *大区间相关度
2.11.3 余弦冗余度
2.11.4 命名实体触发方法
2.11.5 统计机器翻译模型
2.11.6 lexrank方法
2.12 本章小结
参考文献
第3章 大数据检索与分词
3.1 概述
3.2 分词对中文信息检索的影响
3.3 分词精度与检索性能的关系
3.4 大数据应用环境下中文信息检索的分词算法及其特点
3.4.1 分词算法的时间性能要求高
……
第4章 基于层次隐马尔可夫模型的浅层词法分析
第5章 大数据语言新特征发现
第7章 大数据文本自动摘要
第8章 jzsearch大数据精准搜索引擎
第9章 面向大数据的句子检索与新颖性监测
第10章 人物追踪中的数据预处理与属性抽取
第11章 人物模型组织与基于事件的信息处理
附录a ictclas/nlpir 2014汉语分词系统介绍
附录b nlpir大数据搜索与挖掘共享开发平台
作者简介
张华平,1978年出生。工学博士,北京理工大学副教授。毕业于中国科学院计算技术研究所。汉语词法分析系统ICTCLAS创始人,ICTCLAS在国家973评测和**届国际汉语分词大赛中综合得分均获得第1名。主要从事大数据搜索与挖掘、自然语言处理、信息检索等方面的研究工作,主持或参与国家自然科学基金、863、973、242等十余项课题。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中国科学院院长优秀奖、中国科学院计算技术研究所所长特别奖,是中国科学院计算技术研究所“百星计划”首批入选者。高凯,1968年出生。工学博士。毕业于上海交通大学计算机应用技术专业,河北省重点学科“计算机软件与理论”中“信息检索与云计算”方向学术带头人。主要从事大数据搜索与挖掘、自然语言处理、网络信息检索、社会网络计算等领域的研究工作。黄河燕,1963年出生。工学博士,教授、博士生导师,现任北京理工大学计算机学院院长、国家高技术研究发展计划(863计划)主题专家组成员、教育部计算机专业指导委员会委员、中国人工智能学会副理事长、中国中文信息学会副理事长兼自然语言处理专业委员会主任。主要从事自然语言处理和机器翻译、智能处理系统等领域的研究,承担了近20项国家级科研攻关项目和大型工程应用,以及国际合作项目,获得国家科学技术进步奖一等奖、国家经济贸易委员会九五技术创新优秀项目奖、中央国家机关十大杰出青年等荣誉和奖励。赵燕平,1956年出生。北京理工大学教授,国家人力资源和社会保障部职业技能鉴定中心电子商务专业委员会专家,中国电子学会健康物联专委会专家。北京理工大学大数据搜索与挖掘实验室副主任,曾任联合国开发计划署(UNDP)“中国可持续发展网络计划”项目专家。主持参与了多个科研和工程项目。
-
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
机器学习
¥59.4¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
软件设计的哲学(第2版)
¥51.0¥69.8 -
智能算法优化及其应用
¥52.4¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0 -
WPS办公软件应用
¥25.2¥36.0 -
格拉斯曼流行学习及其在图像集分类中的应用
¥13.7¥28.0 -
轻松上手AIGC:如何更好地向CHATGPT提问
¥40.3¥62.0 -
元宇宙的理想与现实:数字科技大成的赋能与治理逻辑
¥61.6¥88.0 -
云原生安全:攻防与运营实战
¥66.8¥89.0