大数量学习种类之六 —– Hadoop+斯Parker环境搭建

引言

在上一篇中 大数目学习体系之五 —–
Hive整合HBase图文详解

http://www.panchengming.com/2017/12/18/pancm62/
中使用Hive整合HBase,并且测试成功了。在从前的大数据学习种类之一 —–
Hadoop环境搭建(单机)
:
http://www.panchengming.com/2017/11/26/pancm55/
中中标的搭建了Hadoop的环境,本文主要讲的是Hadoop+Spark的条件。纵然搭建的是单机版,可是改成集群版的也一定简单,那点过后会写关于Hadoop+斯Parker+HBase+Hive+Zookeeper
等集群的连带阐明的。

图片 1

① 、环境选用

【程序人生】代码非凡烂。所以离职?

1,服务器采取

当地虚拟机
操作系统:linux CentOS 7
Cpu:2核
内存:2G
硬盘:40G

作者:stormzhang

自己在面试的时候一般会问这么二个标题:你干吗离职?

高中档有众多同学会提到如此三个缘由。现在的种类代码太烂了,前人留下了十一分多坑,作者骨子里忍受不住了。

事实上在小编看来,这一个缘故显得未免太不职业了。并且大概把工作想的太过火理想化了。

设若由于代码卓殊烂就去职。那么您跳槽到下2个小卖部依旧会见对雷同的现状。由于差了一点儿每壹人。都会以为本人公司的项目代码十三分烂。

图片 2


2,配置选拔

JDK:1.8 (jdk-8u144-linux-x64.tar.gz)
Hadoop:2.8.2 (hadoop-2.8.2.tar.gz)
Scala:2.12.2 (scala-2.12.2.tgz)
Spark: 1.6 (spark-1.6.3-bin-hadoop2.4-without-hive.tgz)

【Android 开发】Android 安全防护之旅—带您把 Apk 混淆成中文语言代码

3,下载地址

官网地址:
JDK:
http://www.oracle.com/technetwork/java/javase/downloads
Hadopp:
http://www.apache.org/dyn/closer.cgi/hadoop/common
Spark:
http://spark.apache.org/downloads.html
Hive on Spark (spark集成hive的版本)
http://mirror.bit.edu.cn/apache/spark/
Scala:
http://www.scala-lang.org/download

百度云:
链接:https://pan.baidu.com/s/1geT3A8N 密码:f7jb

作者:程序员大雄

首先我们驾驭每贰个标准 app
发布此前都会开展代码混淆,而至于混淆的知识点,可以自动检索了然了,混淆有分外多优点。优化代码,添加安全性等,而以白为黑平日是採用了
proguard.jar 工具,那个工具混淆之后的代码暗许都是 二十九个大写和小写字母,所以倘若想把代码混淆成中文。那么就必须对这几个工具出手。辛亏这些工具是开源的,所以从网上搜他的源代码下载下来,导入project就可以。

图片 3


二 、服务器的有关配置

在计划Hadoop+斯Parker整合从前,应该先做一下布局。
做这么些计划为了方便,使用root权限。

【逆向路由】路由器逆向分析——MIPS系统互联网的安顿(QEMU)

1,更改主机名

率先更改主机名,目标是为着方便管理。
查阅本机的名号
输入:

hostname 

更改本机名称
输入:

hostnamectl set-hostname master

注:主机名称改变之后,要重启(reboot)才会收效。

作者:Fly20141201

使用QEMU
模拟正在实施的MIPS系统并配置MIPS系统互联网。那样地方主机ubuntu系统就可以和QEMU虚拟机进行互联网通信和数据传输了。在拓展MIPS程序的測试时是卓殊实用处。

图片 4


2,主机和IP做涉嫌映射

修改hosts文件,做涉嫌映射
输入

vim /etc/hosts

添加
长机的ip 和 主机名称

192.168.219.128 master

【架构设计】野谈种类之高品质可定制化分布式发号器

3,关闭防火墙

关门防火墙,方便外部访问。
CentOS 7版本以下输入:
闭馆防火墙

service   iptables stop

CentOS 7 以上的版本输入:

systemctl stop firewalld.service

作者:刘兵

说起分布式发号器的前生今世,大家应该感恩这些时代。随着互连网在华夏进而普及化,单机系统可能一个小系统现已无力回天满足须求。随着用户渐渐增多,数据量越来越大。单个应用大概单个数据库已经黔驴技穷满足须求,在动用以至于微服务来临。在数据库存储方面分库分表来临。可以缓解难点。然则新的题材发生,如何做到多个应用可以有唯一主键或然序号,制止数据反复呢?分布式发号器正好为赶尽杀绝难点,可以让大家不用为那么些题材烦恼了,那是本人写那篇文章初衷。

图片 5


4,时间设置

输入:

date

翻看服务器时间是不是相同,若差距则变动
更改时间命令

date -s ‘MMDDhhmmYYYY.ss’

【数据库】 用HAWQ轻松代替古板数据仓库(十一) —— 数据管理

三 、Scala环境部署

因为Spark的布署正视与Scala,所以先要配置Scala。
Scala的配置

作者:wzy0623

在时常应用的增删改查数据库操作中,HAWQ仅支持INSEPRADOT和SELECT三种,不帮忙UPDATE和DELETE。那非常重假使由于HDFS是3个但是能扩展数据而不可能革新的文件系统。SELECT语句最熟稔只是,它应当是数据库中最平常拔取的语句了,在下一篇“查询优化”时再进一步探究。

INSE汉兰达T语句用于创立表行,该命令须要表名和表中每一个列的值。在HAWQ中。该命令有两种采纳方法。当中三种是SQL中的常规使用办法。还有一种是对标准SQL的壮大。

图片 6


1, 文件准备

将下载好的Scala文件解压
输入

tar -xvf scala-2.12.2.tgz

下一场移动到/opt/scala 里面
并且重命名为scala2.1
输入

mv  scala-2.12.2  /opt/scala
mv scala-2.12.2 scala2.1

【存储】应有尽有剖析DDN存储和HPC消除措施

2,环境布置

编辑 /etc/profile 文件
输入:

export SCALA_HOME=/opt/scala/scala2.1
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效
输入 scala -version 查看是还是不是安装成功

图片 7

作者:Hardy晗狄

DataDirect
Networks创建于一九九六年,是一家高质量存储产品的厂商。其提供的贮存系统首要服务于大容积和高带宽应用。

假设高品质计算领域。以及电影和摄像的创设及分发等世界。

HP也曾採用DDN作为其高质量计算化解办法的组成部分。IBM DSC9900
也是OEM自DDN的S2A9900。

图片 8


叁 、斯Parker的环境部署

【Java 编程】 Java代码中常见技术债务处理之Exception

1,文件准备

Spark有二种,下载的地址都给了,一种是纯净版的spark,一种是如胶似漆了hadoop以及hive的版本。本文使用的是第1种
将下载好的Spark文件解压
输入

tar -xvf spark-1.6.3-bin-hadoop2.4-without-hive.tgz

下一场移动到/opt/spark 里面,同等对待命名
输入

mv  spark-1.6.3-bin-hadoop2.4-without-hive  /opt/spark
mv  spark-1.6.3-bin-hadoop2.4-without-hive  spark1.6-hadoop2.4-hive

图片 9

作者:张克强

极度处理是代码中广泛的处理,本文依照SonarQube在那些方面的规则和宽广检查结果,选用表明了广大非常处理中的技术债务。提倡技术债务最少的编码格局。

图片 10


2,环境布置

编辑 /etc/profile 文件
输入:

export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive 
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

图片 11

输入:

source  /etc/profile

使配置生效

【好书推荐】强者联盟——Python语言结合斯Parker框架

3,更改配置文件

切换目录
输入:

cd /opt/spark/spark1.6-hadoop2.4-hive/conf

作者:博文视点

斯Parker由AMPLab实验室开发,其本质是基于内存的长足迭代框架,“迭代”是机器学习最大的风味,由此分外适合做机械学习。得益于在多少正确中长驱直入的突显,Python语言的观者遍布天下,未来又遇上战无不胜的分布式内存总括框架斯Parker,多少个世界的强手走到一起。自然能碰出更压实劲的火舌(斯Parker可以翻译为火花),由此本文紧要讲述了Py斯Parker。

本文选自《全栈数据之门》。

图片 12


图片 13

关爱专栏【CSDN
日报】
。获取最新及往期内容。

4.3.1 修改 spark-env.sh

在conf目录下,修改spark-env.sh文件,若是没有 spark-env.sh
该公文,就复制spark-env.sh.template文件并重命名为spark-env.sh。
修改那几个新建的spark-env.sh文件,参预配置:

export SCALA_HOME=/opt/scala/scala2.1    
export JAVA_HOME=/opt/java/jdk1.8
export HADOOP_HOME=/opt/hadoop/hadoop2.8    
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop  
export SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive
export SPARK_MASTER_IP=master    
export SPARK_EXECUTOR_MEMORY=1G 

图片 14
注:上边的门路以团结的为准,SPAHighlanderK_MASTER_IP为主机,SPARK_EXECUTOR_MEMOCRUISERY为设置的运作内存。

5、Hadoop环境安插

Hadoop的切实布署在大数量学习体系之一 —–
Hadoop环境搭建(单机)

http://www.panchengming.com/2017/11/26/pancm55
中介绍得很详细了。所以本文就大约介绍一下。
注:具体布署以相好的为准。

1,环境变量设置

编辑 /etc/profile 文件 :

vim /etc/profile

安排文件:

export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH

2,配置文件更改

先切换成 /home/hadoop/hadoop2.8/etc/hadoop/ 目录下

5.2.1 修改 core-site.xml

输入:

vim core-site.xml

在添加:

<configuration>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/root/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
   </property>
   <property>
        <name>fs.default.name</name>
        <value>hdfs://master:9000</value>
   </property>
</configuration>

5.2.2修改 hadoop-env.sh

输入:

vim hadoop-env.sh

将${JAVA_HOME} 修改为团结的JDK路径

export   JAVA_HOME=${JAVA_HOME}

修改为:

export   JAVA_HOME=/home/java/jdk1.8

5.2.3修改 hdfs-site.xml

输入:

vim hdfs-site.xml

在添加:

<property>
   <name>dfs.name.dir</name>
   <value>/root/hadoop/dfs/name</value>
   <description>Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.</description>
</property>
<property>
   <name>dfs.data.dir</name>
   <value>/root/hadoop/dfs/data</value>
   <description>Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.</description>
</property>
<property>
   <name>dfs.replication</name>
   <value>2</value>
</property>
<property>
      <name>dfs.permissions</name>
      <value>false</value>
      <description>need not permissions</description>
</property>

5.2.4 修改mapred-site.xml

一旦没有 mapred-site.xml
该公文,就复制mapred-site.xml.template文件一视同仁命名为mapred-site.xml。
输入:

vim mapred-site.xml

修改这么些新建的mapred-site.xml文件,在节点内加入配置:

<property>
    <name>mapred.job.tracker</name>
    <value>master:9001</value>
</property>
<property>
      <name>mapred.local.dir</name>
       <value>/root/hadoop/var</value>
</property>
<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
</property>

3,Hadoop启动

注:即便已经成功安排了就毫无了
运行之前须求先格式化
切换到/home/hadoop/hadoop2.8/bin目录下
输入:

./hadoop  namenode  -format

格式化成功后,再切换成/home/hadoop/hadoop2.8/sbin目录下
启动hdfs和yarn
输入:

start-dfs.sh
start-yarn.sh

运维成功后,输入jsp查看是还是不是运营成功
在浏览器输入 ip+8088 和ip +50070 界面查看是不是能访问
能正确访问则运转成功

六、Spark启动

起始spark要确保hadoop已经打响运转
首先应用jps命令查看运营的程序
在功成名就运营spark之后,再接纳jps命令查看
切换到Spark目录下
输入:

cd /opt/spark/spark1.6-hadoop2.4-hive/sbin

下一场运维斯Parker
输入:

 start-all.sh

图片 15

然后在浏览器输入
http://192.168.219.128:8080/

没错显示该界面,则运营成功
图片 16

注:假使spark成功运行,可是不能访问界面,首先检查防火墙是还是不是关闭,然后在利用jps查看进程,假诺都没难题的,一般就可以访问界面。假若照旧那多少个,那么检查hadoop、scala、spark的配备。

那么本文到此截止,多谢阅读!
若果认为不错,可以点击一下赞或引进。

版权申明:
作者:虚无境
和讯出处:http://www.cnblogs.com/xuwujing
CSDN出处:http://blog.csdn.net/qazwsxpcm    
村办博客出处:http://www.panchengming.com
原创不易,转发请标明出处,谢谢!

发表评论

电子邮件地址不会被公开。 必填项已用*标注