Learning-PySpark, 通过Packt学习PySpark的代码库

分享于 

3分钟阅读

GitHub

  繁體 雙語
Code repository for Learning PySpark by Packt
  • 源代码名称:Learning-PySpark
  • 源代码网址:http://www.github.com/PacktPublishing/Learning-PySpark
  • Learning-PySpark源代码文档
  • Learning-PySpark源代码下载
  • Git URL:
    git://www.github.com/PacktPublishing/Learning-PySpark.git
    Git Clone代码到本地:
    git clone http://www.github.com/PacktPublishing/Learning-PySpark
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/PacktPublishing/Learning-PySpark
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    学习 PySpark

    这是学习 PySpark的代码库,由Packt发布。 它包含了从开始到结束工作所需的所有支持项目文件。

    关于这本书

    Apache Spark 是一个开放源码框架,用于高效集群计算,具有数据并行性和容错的强大接口。 本书将向你展示如何利用 python的力量,并将它的运用到Spark生态系统中。 首先要了解 Spark 2.0体系结构以及如何为Spark建立一个 python 环境。

    你将熟悉PySpark中提供的模块。 你将学习如何使用RDDs和DataFrames抽象数据,并了解PySpark的流功能。 此外,你还将深入了解PySpark的机器学习能力,使用ML和 MLlib,图形处理使用 GraphFrames,以及使用Blaze的多语言持久化。 finally,你将学习如何使用命令将应用程序部署到云中。

    本书的最后,你将对 Spark python API的理解以及如何使用它来构建数据密集型应用程序建立了坚实的了解。

    指令和导航

    所有的代码都被组织成文件夹。 每个文件夹以一个数字开头,然后是应用程序名。 例如第 03章。

    代码将如下所示:

    
     data_key = sc.parallelize( 
    
    
     [('a', 4),('b', 3),('c', 2),('a', 8),('d', 2),('b', 1), 
    
    
     ('d', 3)],4) 
    
    
     data_key.reduceByKey(lambda x, y: x + y).collect() 
    
    
    
    

    软件需求:

    这本书你需要个人电脑( 可以是 Windows 机器,Mac或者 Linux )。

    我们在书中随机使用的python 模块随Anaconda一起来。 我们还使用GraphFrames和 TensorFrames,可以在启动Spark实例时动态加载它们: 要装载这些东西,你只需要上网。

    :

    第 11章和Bouns章节 02不包含代码文件。

    相关产品:

    建议和反馈

    如果你有任何反馈或者建议,请点击这里。


    cod  rep  REPO  PAC  PACK  Repository