spark快速大数据分析2015年9月由人民邮电出版社出版发行,是一本非常经典的spark快速大数据分析方面的学习书籍。近年来大数据逐渐升温,我们呢处在一个数据爆炸的时代大量涌现的智能手机,平板等等设备每时每刻都在产生新的数据。小编推荐的这本Spark快速大数据分析
由Spark开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。感兴趣的朋友欢迎免费下载并阅读。
作者简介:
Holden Karau,是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Andy Konwinski,是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。
Patrick Wendell,是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。
Matei Zaharia,是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。
免责声明:
来源于网络,仅用于分享知识,学习和交流!请下载完在24小时内删除。
禁用于商业用途!如果您喜欢《spark快速大数据分析》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
spark快速大数据分析目录:
推荐序 xi
译者序 xiv
序 xvi
前言 xvii
第1章 Spark数据分析导论 1
1.1 Spark是什么 1
1.2 一个大一统的软件栈 2
1.2.1 Spark Core 2
1.2.2 Spark SQL 3
1.2.3 Spark Streaming 3
1.2.4 MLlib 3
1.2.5 GraphX 3
1.2.6 集群管理器 4
1.3 Spark的用户和用途 4
1.3.1 数据科学任务 4
1.3.2 数据处理应用 5
1.4 Spark简史 5
1.5 Spark的版本和发布 6
1.6 Spark的存储层次 6
第2章 Spark下载与入门 7
2.1 下载Spark 7
2.2 Spark中Python和Scala的shell 9
2.3 Spark 核心概念简介 12
2.4 独立应用 14
2.4.1 初始化SparkContext 15
2.4.2 构建独立应用 16
2.5 总结 19
第3章 RDD编程 21
3.1 RDD基础 21
3.2 创建RDD 23
3.3 RDD操作 24
3.3.1 转化操作 24
3.3.2 行动操作 26
3.3.3 惰性求值 27
3.4 向Spark传递函数 27
3.4.1 Python 27
3.4.2 Scala 28
3.4.3 Java 29
3.5 常见的转化操作和行动操作 30
3.5.1 基本RDD 30
3.5.2 在不同RDD类型间转换 37
3.6 持久化( 缓存) 39
3.7 总结 40
第4章 键值对操作 41
4.1 动机 41
4.2 创建Pair RDD 42
4.3 Pair RDD的转化操作 42
4.3.1 聚合操作 45
4.3.2 数据分组 49
4.3.3 连接 50
4.3.4 数据排序 51
4.4 Pair RDD的行动操作 52
4.5 数据分区(进阶) 52
4.5.1 获取RDD的分区方式 55
4.5.2 从分区中获益的操作 56
4.5.3 影响分区方式的操作 57
4.5.4 示例:PageRank 57
4.5.5 自定义分区方式 59
4.6 总结 61
第5章 数据读取与保存 63
5.1 动机 63
5.2 文件格式 64
5.2.1 文本文件 64
5.2.2 JSON 66
5.2.3 逗号分隔值与制表符分隔值 68
5.2.4 SequenceFile 71
5.2.5 对象文件 73
5.2.6 Hadoop输入输出格式 73
5.2.7 文件压缩 77
5.3 文件系统 78
5.3.1 本地/“常规”文件系统 78
5.3.2 Amazon S3 78
5.3.3 HDFS 79
5.4 Spark SQL中的结构化数据 79
5.4.1 Apache Hive 80
5.4.2 JSON 80
5.5
阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读