八爪鱼数据抓取澳门美高梅手机网站,中华英才网为例

         Azkaban使用安装文档

 

一.八爪鱼抓取58同城音讯

Azkaban简介

1.1 打开八爪鱼采集器==》拔取快速开头==>新建义务(高级情势)

 澳门美高梅手机网站 1

 

Azkaban的是何许

Azkaban是由Linkedin公司生产的一个批量工作流义务调度器,用于在一个办事流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立职责之间的信赖关系,并提供一个不难使用的web用户界面维护和跟踪你的工作流。

1.2点击下一步 基本流程如下点击下一步

 澳门美高梅手机网站 2

Azkaban 的优点

  • 提供功能清晰,不难易用的Web UI界面
  • 提供job配置文件飞快建立义务和职分之间的看重关系
  • 提供模块化和可插拔的插件机制,原生协理command、Java、Hive、Pig、Hadoop
  • 基于Java开发,代码结构清晰,易于二次开发

1.3开行单机采集等待数据抓取已毕

 澳门美高梅手机网站 3

Azkaban的安装

1.4导出多少 csv格式

 澳门美高梅手机网站 4

 

Azkaban的安装格局

Azkaban有二种配备格局:solo server mode , cluster server
mode,multiple-execoutor

  • solo server
    mode(单机形式):该方式中webServer和executorServer运行在同一个经过中,进度名是AzkabanSingleServer。可以接纳自带的H2数据库或者配置mysql数据。该方式适用于小圈圈的运用。
  • cluster server
    mode(集群形式):该情势应用MySQL数据库,webServer和executorServer运行在不相同进度中,该情势适用于广大使用。

3.0自此出现

  • multiple-executor情势:exec进度和web进度在差别的机械上,存放元数据的数据库为mysql

二.将音讯导入到虚拟机

安装mysql

2.1 因访问外网要求树立socroueCRT映射

 澳门美高梅手机网站 5

地面安装

解压mysql

Tar -vxf mysql*

安装mysql

MySQL-5.6.21-1.el7.x86_64.rpm-bundle.tar

MySQL-client-5.6.21-1.el7.x86_64.rpm

MySQL-devel-5.6.21-1.el7.x86_64.rpm

MySQL-embedded-5.6.21-1.el7.x86_64.rpm

MySQL-server-5.6.21-1.el7.x86_64.rpm

MySQL-shared-5.6.21-1.el7.x86_64.rpm

MySQL-shared-compat-5.6.21-1.el7.x86_64.rpm

MySQL-test-5.6.21-1.el7.x86_64.rpm

也许会报错

去除包争辩即可

yum -y remove mariadb-libs-*

2.2用到Fz将数据导入虚拟机

 

在线安装

wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm

rpm -ivh mysql-community-release-el7-5.noarch.rpm

yum install mysql-community-server

设置到位后

systemctl start mysqld.service

设置mysql账号并创制azkaban数据库

mysql -uroot

mysql> set password for ‘root’@’localhost’ = password(‘123456’);

mysql> CREATE DATABASE azkaban;

mysql> CREATE USER ‘azkaban’@’%’ IDENTIFIED BY ‘azkaban’;   

mysql> GRANT ALL ON azkaban.* to ‘azkaban’@’%’ IDENTIFIED BY
‘azkaban’;

mysql> flush privileges;

2.3文件格式修改

 iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文书转换成GBK编码

  iconv -f GBK -t UTF-8 file1 -o file2

 

 

安装jdk

Jdk版本必须为1.8以上版本,低版本报错

上传jdk-8u141-linux-x64.tar.gz 并解压

tar –xvzf jdk-*;

配置jdk环境

export JAVA_HOME=/jdk

export JRE_HOME=/jdk/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JRE_HOME/lib

 

三.将音讯从虚拟机导入到hdfs

Azkaban安装

 

本测试在linux(Centos7.2)版本 使用azkaban-3.38举行安装测试

3.1 使用命令hadoop fs -put 文件名 路径

Hadoop fs -put /文件路径  /要导入的门径

 

.编译,安装进程

1.  git clone https://github.com/azkaban/azkaban.git

源码,当前为3.38本子(注:要求安装git服务  yum –y install git)

  1. 进去azkaban 项目进展编译 ./gradlew
    distTar(注:使用gradle进行安装,若没有gradle会自行安装)

编译结果为

azkaban-common : 常用工具类。

azkaban-db : 对应的sql脚本

azkaban-hadoop-secutity-plugin : hadoop 有关kerberos插件

azkaban-solo-server: web和executor 一起的连串。

azkaban-web/executor-server:azkaban的 web和executor的server信息

azkaban-spi: azkaban存储接口以及exception类

创建azkaban-3.38

Mkdir azkaban-3.38

分别将

ls

 cd azkaban-web-server/build/distributions/

 ls

  cp azkaban-web-server-3.38.0-2-gbd9e6e4.tar.gz /azkaban-3.38/

  cd ../../../

  ls

  cd azkaban-exec-server/build/distributions/

  ls

  cp azkaban-exec-server-3.38.0-2-gbd9e6e4.tar.gz /azkaban-3.38/

  cd ../../../

ls

  cd azkaban-db/build/distributions/

  ls

   cp azkaban-db-3.38.0-2-gbd9e6e4.tar.gz /azkaban-3.38/

解压缩后比量齐观新命名

 

 

tar -xvzf azkaban-db-3.38.0-2-gbd9e6e4.tar.gz

     tar -xvzf azkaban-exec-server-3.38.0-2-gbd9e6e4.tar.gz

     tar -xvzf azkaban-web-server-3.38.0-2-gbd9e6e4.tar.gz

     删除tar压缩包

     rm -fr *.tar.*

     重新命名

     mv azkaban-db-3.38.0-2-gbd9e6e4 azkaban-db-3.38.0-2

     mv azkaban-exec-server-3.38.0-2-gbd9e6e4
azkaban-exec-server-3.38.0-2

     mv azkaban-web-server-3.38.0-2-gbd9e6e4 azkaban-web-server-3.38.0-2

将 azkaban下的

cd azkaban-solo-server/build/distributions/

解压

tar -xvzf azkaban-solo-server-3.38.0-2-gbd9e6e4.tar.gz

然后复制 conf 及plugins 文件到azkaban-3.38下的exec及web下

cp -r  conf  /azkaban-3.38/azkaban-exec-server-3.38.0-2/

  cp -r  conf  /azkaban-3.38/azkaban-web-server-3.38.0-2/

  cp -r  plugins /azkaban-3.38/azkaban-web-server-3.38.0-2/

  cp -r  plugins  /azkaban-3.38/azkaban-exec-server-3.38.0-2/

四.将hdfs的csv文件导入到hive表中

导入azkaban sql

打开mysql使用azkaban数据库

use azkaban

source  /azkaban-3.38/azkaban-db-3.38.0-2/create-all-sql-3.38.0-2-gbd9e6e4.sql

source  /azkaban-3.38/azkaban-db-3.38.0-2/create.active_executing_flows.sql

source  /azkaban-3.38/azkaban-db-3.38.0-2/create.execution_flows.sql

 

 

 

4.1 创建表

 澳门美高梅手机网站 6

配置keystore

在azkaban-web=*/conf下

keytool -keystore keystore -alias jetty -genkey -keyalg RSA

输入密钥库口令:  

密钥库口令太短 - 至少必须为 6 个字符

输入密钥库口令:  

再次输入新口令: 

您的名字与姓氏是什么?

[Unknown]:  

您的组织单位名称是什么?

[Unknown]:  

您的组织名称是什么?

[Unknown]:  

您所在的城市或区域名称是什么?

[Unknown]:  

您所在的省/市/自治区名称是什么?

[Unknown]:  

该单位的双字母国家/地区代码是什么?

[Unknown]: CN

CN=, OU=, O=, L=, ST=, C=CN是否正确?[否]:  Y

4.2将数据导入

Load data input ‘/hdfs的门径’ into table 数据库名.表名;

 

.配置 conf/azkaban.properties

修改是数据库配置

 

database.type=mysql

mysql.port=3306

mysql.host=192.168.3.247

mysql.database=azkaban

mysql.user=azkaban

mysql.password=azkaban

mysql.numconnections=100

 

五.将hive表换成hive中的事物表

添加mysql驱动

在/azkaban-3.38/azkaban-exec-server-3.38.0-2下新建文件夹

mkdir extlib

将lib下的mysql链接驱动复制到extlib下

与此同时须求修改ban-3.38/azkaban-web-server-3.38.0-2

下的azkaban.properties和建立extlib文件将mysql驱动拷入

5.1创办事物表

 澳门美高梅手机网站 7

 

添加log4j.properties文件

在/conf下新建log4j.properties文件

log4j.rootLogger=INFO,C

log4j.appender.C=org.apache.log4j.ConsoleAppender

log4j.appender.C.Target=System.err

log4j.appender.C.layout=org.apache.log4j.PatternLayout

log4j.appender.C.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p
%c{1}:%L – %m%n

拷入同样施行器exec文件下的/conf也必要新建

5.2将引号去除

 澳门美高梅手机网站 8

启动

留意先启动推行器然后开行web服务器,亟需在bin级目录执行,否则汇报找不到布置文件的失实

cd azkaban-exec-server-3.38.0-2

            bin/azkaban-executor-start.sh

 cd azkaban-web-server-3.38.0-2

   bin/azkaban-web-start.sh

 

~                                                                                                                                                                     

~                                       
                                                 

5.3将薪水平均导入新表

 

 澳门美高梅手机网站 9

 

附录

问题一:

若报错ntive.lib找不到修改文件

vi
/azkaban/azkaban-common/src/main/java/azkaban/jobExecutor/ProcessJob.java

 

 

将true改为false,重新启航集群

问题二:

若mysql数据库链接不上请检查mysql数据库下azkaban数据库是否可以访问,

若不可能远程访问请使用root用户登录到mysql数据库

mysql> CREATE USER ‘azkaban’@’%’ IDENTIFIED BY ‘azkaban’;   

mysql> GRANT ALL ON azkaban.* to ‘azkaban’@’%’ IDENTIFIED BY
‘azkaban’;

 

六.将salary的取值区间转换成平均值

 澳门美高梅手机网站 10

七.分析薪俸最高的前三名职位

 澳门美高梅手机网站 11

八.浅析须要量最高的大数据职位前三名

 澳门美高梅手机网站 12

九.剖析必要量最高的三大行业

 澳门美高梅手机网站 13

十.浅析结果通过zeppelin浮现

 澳门美高梅手机网站 14

 澳门美高梅手机网站 15

发表评论

电子邮件地址不会被公开。 必填项已用*标注