东时 资讯

东时大数据培训之Windows下Spark环境搭建

开心果烁烁 2017-04-17 4183 5

摘要: 在大数据中Hadoop是专门针对海量数据而设计的,就像一位数据科学大牛之前在KDNuggets网站的文章中所描述的那样:如果你的企业中没有海量的数据,由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。下面我们一起来看一下大数据Spark环境搭建。

在大数据中Hadoop是专门针对海量数据而设计的,就像一位数据科学大牛之前在KDNuggets网站的文章中所描述的那样:如果你的企业中没有海量的数据,由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。下面我们一起来看一下大数据Spark环境搭建

 一、JDK的安装与环境变量的设置

  1、JDK的安装

  JDK(全称是JavaTMPlatformStandardEditionDevelopmentKit)的安装,下载地址是JavaSEDownloads,一般进入页面后,会默认显示一个最新版的JDK。

  首先,这里主要包含有8u101和8u102这两个版本,也就是说Java推荐所有开发人员从以前的版本升级到JDK8u101,而JDK8u102则除了包括101的所有特性之外,还有一些其他的特性。对于版本的选择,自行选择就好了,其实对于普通开发人员来说,体现不了太大的区别,我这里就是使用的JDK8u101版本。JDK在windows下的安装非常简单,按照正常的软件安装思路去双击下载得到的exe文件,然后设定你自己的安装目录(安装目录在设置环境变量的时候需要用到)即可。

  2、环境变量的设置

  接下来设置相应的环境变量,设置方法为:在桌面右击【计算机】--【属性】--【高级系统设置】,然后在系统属性里选择【高级】--【环境变量】,然后在系统变量中找到“Path”变量,并选择“编辑”按钮后出来一个对话框,可以在里面添加上一步中所安装的JDK目录下的bin文件夹路径名,我这里的bin文件夹路径名是:F:\ProgramFiles\Java\jdk1、8、0_101\bin,所以将这个添加到path路径名下,注意用英文的分号“;”进行分割。这样设置好后,便可以在任意目录下打开的cmd命令行窗口下运行

  观察是否能够输出相关java的版本信息,如果能够输出,说明JDK安装这一步便全部结束了。

  二、Scala安装

  首先从DOWNLOADPREVIOUSVERSIONS下载到对应的版本,在这里需要注意的是,Spark的各个版本需要跟相应的Scala版本对应,比如我这里使用的Spark1.6、2就只能使用Scala2.10的各个版本,目前最新的Spark2.0就只能使用Scala2.11的各个版本,所以下载的时候,需要注意到这种Scala版本与Spark版本相互对应的关系。我这里现在用的是Scala2.10.6,适配Spark从1.3.0到Spark1.6.2之间的各个版本。在版本页面DOWNLOADPREVIOUSVERSIONS选择一个适合自己需要的版本后,会进入到该版本的具体下载页面,记得下载二进制版本的Scala即可。

  下载得到Scala的msi文件后,可以双击执行安装。安装成功后,默认会将Scala的bin目录添加到PATH系统变量中去(如果没有,和JDK安装步骤中类似,将Scala安装目录下的bin目录路径,添加到系统变量PATH中),为了验证是否安装成功,开启一个新的cmd窗口,输入scala然后回车,如果能够正常进入到Scala的交互命令环境则表明安装成功。

  如果不能显示版本信息,并且未能进入Scala的交互命令行,通常有两种可能性:

  1、Path系统变量中未能正确添加Scala安装目录下的bin文件夹路径名,按照JDK安装中介绍的方法添加即可。

  2、Scala未能够正确安装,重复上面的步骤即可。

  三、Spark安装

  Spark的安装非常简单,直接去DownloadApacheSpark。有两个步骤:

  1、选择好对应Hadoop版本的Spark版本;

  2、然后点击所指的spark-1.6.2-bin-hadoop2.6.tgz,等待下载结束即可。

  这里使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用。下载完成后将文件进行解压(可能需要解压两次),最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。并且需要注意的是,在Spark的文件目录路径名中,不要出现空格,类似于“ProgramFiles”这样的文件夹名是不被允许的。

  解压后基本上就差不多可以到cmd命令行下运行了。但这个时候每次运行spark-shell(spark的命令行交互窗口)的时候,都需要先cd到Spark的安装目录下,比较麻烦,因此可以将Spark的bin目录添加到系统变量PATH中。例如我这里的Spark的bin目录路径为D:\Spark\bin,那么就把这个路径名添加到系统变量的PATH中即可,方法和JDK安装过程中的环境变量设置一致,设置完系统变量后,在任意目录下的cmd命令行中,直接执行spark-shell命令,即可开启Spark的交互式命令行模式。

  四、Hadoop下载

  系统变量设置后,就可以在任意当前目录下的cmd中运行spark-shell,但这个时候很有可能会碰到各种错误,这里主要是因为Spark是基于Hadoop的,所以这里也有必要配置一个Hadoop的运行环境。在HadoopReleases里可以看到Hadoop的各个历史版本,这里由于下载的Spark是基于Hadoop2.6的(在Spark安装的第一个步骤中,我们选择的是Pre-builtforHadoop2.6),我这里选择2、6、4版本,选择好相应版本并点击后,进入详细的下载页面,选择进行下载,这里上面的src版本就是源码,需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件,我下载hadoop-2.6.4、tar、gz’文件。

  下载并解压到指定目录,然后到环境变量部分设置HADOOP_HOME为Hadoop的解压目录,我这里是F:\ProgramFiles\hadoop,然后再设置该目录下的bin目录到系统变量的PATH下,我这里也就是F:\ProgramFiles\hadoop\bin,如果已经添加了HADOOP_HOME系统变量,也可以用%HADOOP_HOME%\bin来指定bin文件夹路径名。这两个系统变量设置好后,开启一个新的cmd,然后直接输入spark-shell命令。

  正常情况下是可以运行成功并进入到Spark的命令行环境下的,但是对于有些用户可能会遇到空指针的错误。这个时候,主要是因为Hadoop的bin目录下没有winutils、exe文件的原因造成的。这里的解决办法是:

  1、去github.com/steveloughran/winutils选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils、exe文件,下载方法是点击winutils、exe文件,进入之后在页面的右上方部分有一个Download按钮,点击下载即可。

  2、下载好winutils.exe后,将这个文件放入到Hadoop的bin目录下,我这里是F:\ProgramFiles\hadoop\bin。

  3、在打开的cmd中输入:F:\ProgramFiles\hadoop\bin\winutils.exechmod777/tmp/Hive

  这个操作是用来修改权限的。注意前面的F:\ProgramFiles\hadoop\bin部分要对应的替换成实际你所安装的bin目录所在位置。

  经过这几个步骤之后,然后再次开启一个新的cmd窗口,如果正常的话,应该就可以通过直接输入spark-shell来运行Spark了。

以上就是大数据培训基础在Windows下搭建spark开发环境的步骤的详细介绍,想要了解更多关于大数据spark相关技术资讯,请关注东时教育官网、微信等平台。

     

     

在线咨询
在线报名
客服QQ
视频下载
回到顶部