澳门美高梅手机网站八爪鱼数据抓取,智联招聘也条例

         Azkaban使用安装文档

 

一.八爪鱼抓到手智联招聘信息

Azkaban简介

1.1 打开八爪鱼采集器==》选择快速开==>新建任务(高级模式)

 澳门美高梅手机网站 1

 

Azkaban的凡呀

Azkaban是出于Linkedin公司推出的一个批量工作流任务调度器,用于在一个办事流内以一个一定的各个运行一组工作跟流程。Azkaban使用job配置文件建立任务中的借助关系,并提供一个便于使的web用户界面维护和跟踪而的工作流。

1.2点击下一样步 基本流程如下点击下同样步

 澳门美高梅手机网站 2

Azkaban 的优点

  • 供功能清晰,简单容易用之Web UI界面
  • 供job配置文件快速建立任务和职责中的负关系
  • 提供模块化和而插拔的插件机制,原生支持command、Java、Hive、Pig、Hadoop
  • 基于Java开发,代码结构清晰,易于二次开发

1.3开行单机采集等数抓取了

 澳门美高梅手机网站 3

Azkaban的安装

1.4传输出多少 csv格式

 澳门美高梅手机网站 4

 

Azkaban的设置模式

Azkaban有三栽配备方式:solo server mode , cluster server
mode,multiple-execoutor

  • solo server
    mode(单机模式):该模式中webServer和executorServer运行于跟一个历程遭到,进程名是AzkabanSingleServer。可以运用自带的H2数据库或者安排mysql数据。该模式适用于有些范围的使。
  • cluster server
    mode(集群模式):该模式采用MySQL数据库,webServer和executorServer运行于不同进程面临,该模式适用于周边利用。

3.0事后出现

  • multiple-executor模式:exec进程同web进程在不同的机械上,存放元数据的数据库也mysql

二.将消息导入到虚拟机

安装mysql

2.1 因看外网需要树立socroueCRT映射

 澳门美高梅手机网站 5

地面安装

解压mysql

Tar -vxf mysql*

安装mysql

MySQL-5.6.21-1.el7.x86_64.rpm-bundle.tar

MySQL-client-5.6.21-1.el7.x86_64.rpm

MySQL-devel-5.6.21-1.el7.x86_64.rpm

MySQL-embedded-5.6.21-1.el7.x86_64.rpm

MySQL-server-5.6.21-1.el7.x86_64.rpm

MySQL-shared-5.6.21-1.el7.x86_64.rpm

MySQL-shared-compat-5.6.21-1.el7.x86_64.rpm

MySQL-test-5.6.21-1.el7.x86_64.rpm

想必会见报错

除去包冲突即可

yum -y remove mariadb-libs-*

2.2下Fz将数据导入虚拟机

 

在线安装

wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm

rpm -ivh mysql-community-release-el7-5.noarch.rpm

yum install mysql-community-server

安好后

systemctl start mysqld.service

装mysql账号并创azkaban数据库

mysql -uroot

mysql> set password for ‘root’@’localhost’ = password(‘123456’);

mysql> CREATE DATABASE azkaban;

mysql> CREATE USER ‘azkaban’@’%’ IDENTIFIED BY ‘azkaban’;   

mysql> GRANT ALL ON azkaban.* to ‘azkaban’@’%’ IDENTIFIED BY
‘azkaban’;

mysql> flush privileges;

2.3文件格式修改

 iconv -f encoding -t encoding inputfile 比如用一个UTF-8 编码的文本转换成为GBK编码

  iconv -f GBK -t UTF-8 file1 -o file2

 

 

安装jdk

Jdk版本要也1.8以上版本,低版本报错

上传jdk-8u141-linux-x64.tar.gz 并解压

tar –xvzf jdk-*;

配置jdk环境

export JAVA_HOME=/jdk

export JRE_HOME=/jdk/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JRE_HOME/lib

 

三.以信息于虚拟机导入到hdfs

Azkaban安装

 

遵测试在linux(Centos7.2)版本 使用azkaban-3.38进行安装测试

3.1 使用命令hadoop fs -put 文件名 路径

Hadoop fs -put /文件路径  /要导入的路径

 

.编译,安装过程

1.  git clone https://github.com/azkaban/azkaban.git

源码,当前呢3.38本子(注:需要设置git服务  yum –y install git)

  1. 进入azkaban 项目展开编译 ./gradlew
    distTar(注:使用gradle进行安装,若无gradle会自行设置)

编译结果为

azkaban-common : 常用工具类。

azkaban-db : 对应的sql脚本

azkaban-hadoop-secutity-plugin : hadoop 有关kerberos插件

azkaban-solo-server: web和executor 一起的品种。

azkaban-web/executor-server:azkaban的 web和executor的server信息

azkaban-spi: azkaban存储接口及exception类

创建azkaban-3.38

Mkdir azkaban-3.38

分别将

ls

 cd azkaban-web-server/build/distributions/

 ls

  cp azkaban-web-server-3.38.0-2-gbd9e6e4.tar.gz /azkaban-3.38/

  cd ../../../

  ls

  cd azkaban-exec-server/build/distributions/

  ls

  cp azkaban-exec-server-3.38.0-2-gbd9e6e4.tar.gz /azkaban-3.38/

  cd ../../../

ls

  cd azkaban-db/build/distributions/

  ls

   cp azkaban-db-3.38.0-2-gbd9e6e4.tar.gz /azkaban-3.38/

解压缩后并重新命名

 

 

tar -xvzf azkaban-db-3.38.0-2-gbd9e6e4.tar.gz

     tar -xvzf azkaban-exec-server-3.38.0-2-gbd9e6e4.tar.gz

     tar -xvzf azkaban-web-server-3.38.0-2-gbd9e6e4.tar.gz

     删除tar压缩包

     rm -fr *.tar.*

     重新命名

     mv azkaban-db-3.38.0-2-gbd9e6e4 azkaban-db-3.38.0-2

     mv azkaban-exec-server-3.38.0-2-gbd9e6e4
azkaban-exec-server-3.38.0-2

     mv azkaban-web-server-3.38.0-2-gbd9e6e4 azkaban-web-server-3.38.0-2

将 azkaban下的

cd azkaban-solo-server/build/distributions/

解压

tar -xvzf azkaban-solo-server-3.38.0-2-gbd9e6e4.tar.gz

然后复制 conf 及plugins 文件及azkaban-3.38下的exec及web下

cp -r  conf  /azkaban-3.38/azkaban-exec-server-3.38.0-2/

  cp -r  conf  /azkaban-3.38/azkaban-web-server-3.38.0-2/

  cp -r  plugins /azkaban-3.38/azkaban-web-server-3.38.0-2/

  cp -r  plugins  /azkaban-3.38/azkaban-exec-server-3.38.0-2/

四.用hdfs的csv文件导入到hive表中

导入azkaban sql

打开mysql使用azkaban数据库

use azkaban

source  /azkaban-3.38/azkaban-db-3.38.0-2/create-all-sql-3.38.0-2-gbd9e6e4.sql

source  /azkaban-3.38/azkaban-db-3.38.0-2/create.active_executing_flows.sql

source  /azkaban-3.38/azkaban-db-3.38.0-2/create.execution_flows.sql

 

 

 

4.1 创建表

 澳门美高梅手机网站 6

配置keystore

在azkaban-web=*/conf下

keytool -keystore keystore -alias jetty -genkey -keyalg RSA

输入密钥库口令:  

密钥库口令太短 - 至少必须为 6 个字符

输入密钥库口令:  

再次输入新口令: 

您的名字与姓氏是什么?

[Unknown]:  

您的组织单位名称是什么?

[Unknown]:  

您的组织名称是什么?

[Unknown]:  

您所在的城市或区域名称是什么?

[Unknown]:  

您所在的省/市/自治区名称是什么?

[Unknown]:  

该单位的双字母国家/地区代码是什么?

[Unknown]: CN

CN=, OU=, O=, L=, ST=, C=CN是否正确?[否]:  Y

4.2将数据导入

Load data input ‘/hdfs的路径’ into table 数据库名.表名;

 

.配置 conf/azkaban.properties

改是数据库配置

 

database.type=mysql

mysql.port=3306

mysql.host=192.168.3.247

mysql.database=azkaban

mysql.user=azkaban

mysql.password=azkaban

mysql.numconnections=100

 

五.拿hive表换成hive中的事物表

添加mysql驱动

在/azkaban-3.38/azkaban-exec-server-3.38.0-2下蛋新建文件夹

mkdir extlib

以lib下之mysql链接驱动复制到extlib下

并且要修改ban-3.38/azkaban-web-server-3.38.0-2

产之azkaban.properties和建立extlib文件拿mysql驱动拷入

5.1创立事物表

 澳门美高梅手机网站 7

 

添加log4j.properties文件

在/conf下新建log4j.properties文件

log4j.rootLogger=INFO,C

log4j.appender.C=org.apache.log4j.ConsoleAppender

log4j.appender.C.Target=System.err

log4j.appender.C.layout=org.apache.log4j.PatternLayout

log4j.appender.C.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p
%c{1}:%L – %m%n

拷入同样施行器exec文件下的/conf为要新建

5.2将引号去除

 澳门美高梅手机网站 8

启动

留神先启动推行器然后启动web服务器,得在bin级目录执行,否则汇报找不顶布置文件的不当

cd azkaban-exec-server-3.38.0-2

            bin/azkaban-executor-start.sh

 cd azkaban-web-server-3.38.0-2

   bin/azkaban-web-start.sh

 

~                                                                                                                                                                     

~                                       
                                                 

5.3用工钱平均导入新表

 

 澳门美高梅手机网站 9

 

附录

问题一:

比方报错ntive.lib找不顶修改文件

vi
/azkaban/azkaban-common/src/main/java/azkaban/jobExecutor/ProcessJob.java

 

 

以true改为false,重新开动集群

问题二:

若mysql数据库链接不达标要检查mysql数据库下azkaban数据库是否好看,

设无法远程访问请求以root用户登录到mysql数据库

mysql> CREATE USER ‘azkaban’@’%’ IDENTIFIED BY ‘azkaban’;   

mysql> GRANT ALL ON azkaban.* to ‘azkaban’@’%’ IDENTIFIED BY
‘azkaban’;

 

六.用salary的取值区间转换成为平均值

 澳门美高梅手机网站 10

七.解析工资最高的面前三称呼位置

 澳门美高梅手机网站 11

八.剖析需求量最高的十分数目职位前三名叫

 澳门美高梅手机网站 12

九.浅析需求量最高的老三百般行

 澳门美高梅手机网站 13

十.分析结果通过zeppelin展示

 澳门美高梅手机网站 14

 澳门美高梅手机网站 15

发表评论

电子邮件地址不会被公开。 必填项已用*标注