PYthon爬虫大数据采集与挖掘

1星价 ¥37.1 (6.2折)

2星价￥37.1 定价￥59.8

作者：曾剑平

出版社：清华大学出版社

本类榜单：计算机/网络

分类：计算机/网络 > 程序设计

买过本商品的人还买了

暂无评论

图文详情

ISBN：9787302540540
装帧：平装-胶订
册数：暂无
重量：暂无
开本：16开
页数：296
出版时间：2020-04-16
条形码：9787302540540 ; 978-7-302-54054-0

本书特色

基础篇：HTTP协议、WEB服务器原理、网络协议、HTML规范、编码
技术原理篇：普通爬虫、主题爬虫、微博、礼貌型爬虫、分布式爬虫、协议数据还原、ETL、大数据交易技术：平台、技术支持、难点
工具与应用篇：从零开始、开源系统/Java、Python
工具应用：爬虫用于抓取论坛、用于舆情监测

内容简介

本书围绕大数据采集，对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术，并提供了27个与爬虫相关技术和应用相关的Python程序。本书可以作为高等院校大数据、计算机、信息以及经管、金融等人文社科相关专业研究生和高年级本科生的教材，也可以作为大数据、计算机、信息以及经管、金融等人文社科领域研究人员和专业技术人员的参考书。

目录
源码下载 **部分概述第1章大数据采集概述 1.1互联网大数据与采集 1.1.1互联网大数据来源 1.1.2互联网大数据的特征 1.2Python爬虫大数据采集技术的重要性 1.3爬虫技术研究及应用现状 1.4爬虫技术的应用场景 1.5爬虫大数据采集的技术体系 1.5.1技术体系构成 1.5.2相关技术 1.5.3技术评价方法 1.6爬虫大数据采集与挖掘的合规性 1.7爬虫大数据采集技术的展望思考题
第二部分基础篇第2章Web页面及相关技术 2.1HTML语言规范 2.1.1HTML标签 2.1.2HTML整体结构 2.1.3CSS简述 2.1.4常用标签 2.1.5HTML语言的版本进化 2.2编码体系与规范 2.2.1ASCII 2.2.2gb2312/gbk 2.2.3unicode 2.2.4utf8 2.2.5网页中的编码和Python处理 2.3Python正则表达式思考题第3章Web应用架构与协议 3.1常用的Web服务器软件 3.1.1流行的Web服务器软件 3.1.2在Python中配置Web服务器 3.2Web服务器的应用架构 3.2.1典型的应用架构 3.2.2Web页面的类型 3.2.3页面文件的组织方式 3.3Robots协议 3.3.1Robots协议的来历 3.3.2Robots协议的规范与实现 3.4HTTP协议 3.4.1HTTP版本的技术特性 3.4.2HTTP报文 3.4.3HTTP头部 3.4.4HTTP状态码 3.4.5HTTPS 3.5状态保持技术 3.5.1Cookie 3.5.2Session 思考题第三部分技术与实现篇第4章普通爬虫页面采集技术与Python实现 4.1普通爬虫的体系架构 4.2Web服务器连接器 4.2.1整体处理过程 4.2.2DNS缓存 4.2.3requests/response的使用方法 4.2.4错误和异常的处理 4.3超链接及域名提取与过滤 4.3.1超链接的类型 4.3.2提取方法 4.3.3遵守Robots协议的友好爬虫 4.4爬行策略与实现 4.4.1爬行策略及设计方法 4.4.2宽度优先和深度优先策略 4.4.3基于PageRank的重要性排序 4.4.4其他策略 4.4.5爬行策略设计的综合考虑思考题第5章动态页面采集技术与Python实现 5.1动态页面内容的生成与交互 5.1.1页面内容的生成方式 5.1.2动态页面交互的实现 5.2动态页面采集技术 5.3使用带参数的URL 5.4利用Cookie和Session 5.5使用Ajax：以评论型页面为例 5.5.1获取URL地址 5.5.2获取动态请求参数 5.6模拟浏览器——以自动登录邮箱为例思考题第6章Web信息提取与Python实现 6.1Web信息提取任务及要求 6.2Web页面内容提取的思路 6.2.1DOM树 6.2.2提取方法 6.3基于HTML结构的内容提取方法 6.3.1html.parser 6.3.2lxml 6.3.3html5lib 6.3.4BeautifulSoup 6.3.5PyQuery 6.4基于统计的Web内容抽取方法思考题第7章主题爬虫页面采集技术与Python实现 7.1主题爬虫的使用场景 7.2主题爬虫技术框架 7.3主题及其表示 7.4相关度计算 7.4.1主题相关度的计算 7.4.2链接相关度估算 7.4.3页面内容相关度计算 7.5特定新闻主题采集思考题第8章Deep Web爬虫与Python实现 8.1相关概念 8.2Deep Web的特征和采集要求 8.3深度网页内容获取技术架构 8.3.1领域本体知识库 8.3.2寻找表单 8.3.3表单处理 8.3.4结果处理 8.4图书信息采集思考题第9章微博信息采集与Python实现 9.1微博信息采集方法概述 9.2微博开放平台授权与测试 9.3在Python中调用微博API采集数据 9.3.1流程介绍 9.3.2微博API及使用方法 9.3.3采集微博用户个人信息 9.3.4采集微博博文 9.3.5微博API的限制 9.4通过爬虫采集微博信息思考题第10章反爬虫技术与反反爬虫技术 10.1两种技术的概述 10.2反爬虫技术 10.2.1爬虫检测技术 10.2.2爬虫阻断技术 10.3反反爬虫技术思考题第四部分大数据挖掘与应用篇第11章文本信息处理与挖掘技术 11.1文本预处理 11.1.1词汇切分 11.1.2停用词过滤 11.1.3词形规范化 11.1.4Python开源库jieba的使用 11.2文本的向量空间模型 11.2.1特征选择 11.2.2模型表示 11.2.3使用Python构建向量空间表示 11.3文本分类及实现技术 11.3.1分类技术概要 11.3.2分类器技术 11.3.3新闻分类的Python实现 11.4主题及其实现技术 11.4.1主题的定义 11.4.2基于向量空间的主题构建 11.4.3LDA主题模型 11.4.4LDA模型的Python实现 11.5大数据可视化技术 11.5.1大数据可视化方法概述 11.5.2Python开源库的使用思考题第12章互联网大数据获取技术的应用 12.1常见应用模式 12.2新闻阅读器采集与分析 12.2.1目标任务 12.2.2总体思路 12.2.3新闻内容采集与提取 12.2.4新闻分析 12.3爬虫用于Web网站SQL注入检测 12.3.1目标任务 12.3.2总体思路 12.3.3Python程序设计思考题附录A代码与数据附录B相关包索引附录C爬虫框架附录D书中视频对应二维码汇总表
参考文献

展开全部

作者简介

曾剑平，博士，复旦大学计算机科学技术学院副教授、硕士生导师。曾供职于软件公司并担任总工程师。担任International Journal of Network Security（信息安全、EI源刊）、Journal of Emerging Technologies in Web Intelligence（Web智能）、《计算机工程与应用》等多个国内外知名学术期刊的编委。担任World Wide Web Journal、Knowledge-based Systems、IEEE SMC、IEEE TKDE、JCST、计算机科学、小型微型计算机系统等多个国内外学术期刊的审稿专家。近十多年来，申请专利10多项，其中5项为授权发明专利（**发明人），获得1项软件著作权（**完成人）。主持国家自然科学基金面上项目、上海市自然科学基金项目、教育部课题以及企业委托项目多项，参与国家重点科技计划、国家信息化专家咨询委员会、国家保密局、上海科委以及企业合作等项目研究。目前主要研究方向是社交媒体分析及应用、网络舆情分析技术和大数据安全。作为**作者和通讯作者发表相关技术方向的论文60多篇，其中有10多篇是在国际著名学术期刊上。

本类五星书