云计算环境下Spark大数据处理技术与实践
麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 大数据技术的战略意义不在于获取了庞大的数据,而在于对这些特定领域的数据进行处理分析。换而言之,关键是把这些巨大的数据实现盈利式的加工,提供效率,具有增值的处理模式。 本书背景 大数据像飓风一样席卷而来,改变着信息时代的数据处理方式。产业经营方式经历着革命性的变革,大数据与云计算的融合改变着数据处理流程和模式,对互联网、信息经济发展提出了新的方向和扩展空间。应用驱动技术发展产生的数据越多,可供分析的数据越多,越能推动研发和出现更先进的用来分析数据的工具和方法。 国家对互联网、信息经济的发展提出了方向,明确说要拓展发展新的空间,实施网络强国战略,实施“互联网+”行动计划,发展分享经济,实施国家大数据战略,将网络强国战略作为新的一个创新的重要支撑。 本书内容 本书围绕互联网重大的技术革命:云计算、大数据(未来世界新一代信息技术的关键和核心)进行阐述。云计算环境下大数据处理构建是国民经济发展的信息基础设施,发展自主的云计算核心技术,拥有自己的信息基础设施,当前正处于重要的发展机遇期。本书重点在大数据与云计算的融合,给出了大数据与云计算的一些基本概念的同时,以Spark为开发工具,全面讲述云环境下的大数据技术部署与典型案例算法实现,最后介绍了国内经典Spark大数据与云计算融合的架构与算法。 本书目的 3年前就开始着手准备写关于大数据和云计算融合的相关技术方面的书,由于书中的算法需要模拟验证,所以交稿拖延了很长时间。目前这方面的书还不系统,还没有全面融合两者技术的书出现 ...