CK21144-Python分布式爬虫必学框架Scrapy构建搜索引擎

条件安顿:Ubuntu11.10,Hadoop1.0.0

随笔背景:在许多时候,很多入门不久的情人都会问作者:我是从别的语言转到程序支付的,有没有一对基础性的素材给大家上学深造呢,你的框架感觉一下太大了,希望有个安分守己的学科恐怕摄像来读书就好了。对于学习有狼狈不了解怎么着升级自身能够加扣:1225462853开展交换获得援助,获取学习资料.

安装ssh

CK21144-Python分布式爬虫必学框架Scrapy塑造搜索引擎

1

下载地址:http://pan.baidu.com/s/1jI05TPW

apt-get install ssh

 

安装rsy

图片 1

1

 

apt-get install rsync

图片 2

布局ssh免密码登录

单机爬虫(Scrapy)到分布式爬虫(Scrapy-Redis)的周密实战

1

纵使你和其余爬虫课程相比较,随便去看,你会清楚,慕课网的心境一向不是靠嘴说的,是靠高品质内容反映的

ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa

说真的,你再也没有理由学不会爬虫了

2

从0开端上课

cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys

爬虫基本原理

表达是不是成功

讲精讲透

1

最流行爬虫框架

ssh localhost

Scrapy

下载Hadoop1.0.0,JDK

从单机爬虫到

新建 linux 终端,建立app目录,Java和Hadoop都将设置在此目录中。

分布式爬虫

 

爬取知名网站

1

真正数据

mkdir /home/app

塑造本人的

接下去,安装Java和Hadoop,Hadoop解压即可。

查找引擎

1

从0讲解爬虫基本原理,对爬虫中所须求接纳的知识点进行梳理,从搭建开发环境、设计数据库开首,通过爬取多个闻明网站的真实性数据,带你安分守纪的左右Scrapy原理、各模块使用、组件开发,Scrapy的进阶开发以及反爬虫的政策

cd /home/app

根本通晓Scrapy之后,带你根据Scrapy、Redis、elasticsearch和django塑造二个完好无损的探寻引擎网站

2

 

chmod +x jdk-6u30-linux-i586.bin

 

3

图片 3

./jdk-6u30-linux-i586.bin

4

 

5

tar zxf hadoop-1.0.0-bin.tar.gz

配置JDK环境变量

 

1

vi /etc/profile

充实上边语句到最后

1

export JAVA_HOME=/home/app/jdk1.6.0_30

2

export PATH=$JAVA_HOME/bin:$PATH

3

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

接下去开头布局Hadoop

进入Hadoop目录

 

1

cd /home/app/hadoop-1.0.0

修改配置文件,钦点JDk安装路径

1

vi conf/hadoop-env.sh

1

export JAVA_HOME=/home/app/jdk1.6.0_30

修改Hadoop宗旨配置文件core-site.xml,那里配置的是HDFS的地址和端口号

1

vi conf/core-site.xml

1

<configuration>

2

    <property>

3

        <name>fs.default.name</name>

4

        <value>hdfs://localhost:9000</value>   

5

    </property>

6

</configuration>

修改Hadoop中HDFS的配备,配置的备份方式私下认可为3,因为设置的是单机版,所以需求改为1

1

vi conf/hdfs-site.xml

1

<configuration>

2

    <property>

3

        <name>dfs.replication</name>

4

        <value>1</value>

5

    </property>

6

</configuration>

修改Hadoop中MapReduce的陈设文件,配置的是JobTracker的地方和端口

1

vi conf/mapred-site.xml

1

<configuration>

2

    <property>

3

        <name>mapred.job.tracker</name>

4

        <value>localhost:9001</value>

5

    </property>

6

</configuration>

接下去,运维Hadoop,在开发银行之前,需求格式化Hadoop的文件系统HDFS,进入Hadoop文件夹,输入上面发号施令

1

bin/hadoop namenode -format

接下来运维Hadoop,输入指令

1

bin/start-all.sh

以此命令为持有服务整个开发银行。

最后,验证Hadoop是还是不是安装成功。打开浏览器,分别输入一下网址:

 

http://localhost:50030    (MapReduce的Web页面)

 

http://localhost:50070    (HDfS的web页面)

 

倘若都能查看,表达安装成功。

 

Hadoop分别从四个角度将主机划分为三种剧中人物:

 

第贰,划分为master和slave,即主人与奴隶。

 

第3,从HDFS的角度,将主机划分为namenode和datanode(在分布式文件系统中,目录的管住很重庆大学,管理目录的就一定于主人,而namenode就是目录管理者)。

 

其三,从MapReduce的角度,将主机划分为JobTracker和TaskTracker(一个job经常被剪切为多少个task,从这么些角度容易精晓它们中间的涉及)。

发表评论

电子邮件地址不会被公开。 必填项已用*标注