×
暂无评论
图文详情
  • ISBN:9787115639158
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:216
  • 出版时间:2024-07-01
  • 条形码:9787115639158 ; 978-7-115-63915-8

本书特色

1.本选题资源与案例均为本校多年教学经验的总结,同时结合大数据一线企业浪潮集团在数据采集行业的行业经验与案例总结。做到了真正的产教融合。

2.以项目为模块组织教材内容,打破了原有教材体系的章节框架局限。

3.深度契合高等职业学校大数据技术与应用*新专业教学标准

内容简介

本书按照大数据采集与预处理的实现流程,由浅入深地讲解大数据采集与预处理的相关技术,以及如何使用不同方式对大数据进行采集与预处理。本书内容系统、全面,可帮助开发人员快速实现大量数据的采集。
本书主要内容包括大数据采集与预处理简介、PyCharm的安装与使用、Urllib库数据采集、Requests库数据采集、XPath和Beautiful Soup库数据解析、Scrapy框架数据采集与存储、Flume和Kafka日志数据采集以及使用Pandas、Pig、ELK进行数据预处理等。
本书既可作为高职高专院校大数据、人工智能相关专业的教材,也可作为相关技术人员的参考书。

目录

目录 CONTENTS

项目1

初识动态网页数据采集与

预处理 1

项目导言 1

思维导图 1

知识目标 1

技能目标 1

素养目标 2

任务1-1 认识数据采集与预处理 2

任务描述 2

素质拓展 2

任务技能 2

技能点1 认识大数据来源 2

技能点2 认识数据采集 5

技能点3 认识数据预处理 10

任务1-2 搭建数据采集与预处理开发

环境 14

任务描述 14

素质拓展 14

任务技能 14

技能点1 认识PyCharm 14

技能点2 下载及安装PyCharm 15

技能点3 使用PyCharm 18

任务实施 20

项目小结 24

课后习题 24

自我评价 25



项目2

动态网页数据采集 26

项目导言 26

思维导图 26

知识目标 26

技能目标 26

素养目标 27

任务2-1 使用Urllib库完成“新闻

动态”网页数据采集 27

任务描述 27

素质拓展 27

任务技能 27

技能点1 request模块 27

技能点2 error模块 30

技能点3 parse模块 31

任务实施 32

任务2-2 使用Requests库完成

“浪潮云说”网页数据

采集 36

任务描述 36

素质拓展 37

任务技能 37

技能点1 Requests库的简介及

安装 37

技能点2 Requests库的基本使用

方法 38

技能点3 Requests库的高级使用

方法 42

任务实施 45

项目小结 48

课后习题 48

自我评价 49



项目3

动态网页数据解析 50

项目导言 50

思维导图 50

知识目标 50

技能目标 50

素养目标 51

任务3-1 使用XPath解析“新闻

动态”网页数据 51

任务描述 51

素质拓展 51

任务技能 51

技能点1 XPath的简介 51

技能点2 定位 55

技能点3 数据提取 57

任务实施 58

任务3-2 使用Beautiful Soup

解析“浪潮云说”网页

数据 63

任务描述 63

素质拓展 63

任务技能 63

技能点1 Beautiful Soup的安装 64

技能点2 Beautiful Soup的使用 65

任务实施 68

项目小结 75

课后习题 75

自我评价 76



项目4

基于Scrapy实现动态网页

数据采集与存储 77

项目导言 77

思维导图 77

知识目标 77

技能目标 77

素养目标 78

任务4-1 使用Scrapy框架完成

新闻公告页面数据采集

与存储 78

任务描述 78

素质拓展 78

任务技能 78

技能点1 Scrapy的简介及安装 78

技能点2 Scrapy的操作指令 82

技能点3 段定义及Scrapy设置 83

技能点4 文本解析 89

技能点5 内容存储 93

任务实施 95

项目小结 104

课后习题 104

自我评价 105



项目5

动态网页访问日志数据

采集 106

项目导言 106

思维导图 106

知识目标 106

技能目标 106

素养目标 107

任务5-1 使用Flume采集某官网

访问日志数据 107

任务描述 107

素质拓展 107

任务技能 107

技能点1 Flume的简介 107

技能点2 Flume数据采集配置 110

技能点3 Flume的启动方法 119

技能点4 Flume拦截器配置 122

任务实施 125

任务5-2 使用Kafka消费Flume中

某官网访问日志数据 129

任务描述 129

素质拓展 130

任务技能 130

技能点1 Kafka的简介 130

技能点2 Kafka的配置 131

技能点3 Kafka脚本操作 134

技能点4 Kafka Python API 137

任务实施 140

项目小结 144

课后习题 144

自我评价 145



项目6

动态网页数据预处理 146

项目导言 146

思维导图 146

知识目标 147

技能目标 147

素养目标 147

任务6-1 使用Pandas实现新闻动态

网页数据预处理 147

任务描述 147

素质拓展 147

任务技能 148

技能点1 Pandas的简介 148

技能点2 Pandas的数据结构 148

技能点3 Pandas的基本功能 149

技能点4 汇总和描述统计 155

技能点5 处理缺失数据 157

任务实施 158

任务6-2 使用Pig实现“浪潮云说”

网页数据预处理 161

任务描述 161

素质拓展 161

任务技能 162

技能点1 Pig的简介 162

技能点2 Pig配置运行 162

技能点3 Pig Latin执行 165

技能点4 运算符 166

技能点5 内置函数 171

任务实施 177

任务6-3 使用ELK实现某官网日志

数据预处理 182

任务描述 182

素质拓展 182

任务技能 182

技能点1 Elasticsearch 182

技能点2 Logstash 184

技能点3 Kibana 195

任务实施 200

项目小结 207

课后习题 207

自我评价 208

展开全部

作者简介

宋磊。电子与信息工程学院专业技术副总管,教授,全国技术能手(经核准后授予)、龙江技术能手,校级教学名师,校级师德先进个人,哈尔滨市“四有”好老师。黑龙江省高职高专计算机类教学指导会员会委员、区块链智能合约开发职业技能等级证书考评员、数据采集职业技能等级证书考评员。从事软件技术专业教学工作18年,主讲《Java项目实战》《Web综合实战》《Java企业级项目开发实战》等多门课程。主讲课程《Java项目实战》2018年评为省级精品在线开放课程,2020年评为省级课程思政示范课。参加黑龙江省教学能力大赛获二等奖2项。指导学生参加全国职业院校技能大赛“物联网技术应用”“区块链技术应用”赛项获二等奖2项,三等奖3项。指导学生参加省级职业院校技能大赛“物联网技术应用”、“云计算技术与应用”、“大数据技术与应用”、“移动应用开发”等赛项获一等奖10余项。参与起草《数据采集》《JAVA应用开发》2项职业技能等级标准。担任44-46届世界技能大赛黑龙江省选拔赛“网站设计与开发”赛项裁判长和命题专家。主持省级区块链技术应用专业教学资源库建设、主持校级新一代信息技术专业群教学资源库建设。荣获黑龙江省一类职业技能大赛物联网技术职业技能大赛个人赛**名(金牌)、黑龙江省**届职业技能大赛区块链应用操作金牌,全国第二届职业技能大赛区块链应用操作铜牌。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航