`
ladymaidu
  • 浏览: 676616 次
文章分类
社区版块
存档分类
最新评论

Hadoop入门简介

 
阅读更多

1. Hadoop简介

2. Hadoop环境建立

3. 参考资料

<1>. Hadoop简介

hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。

1. hadoop common:为其他项目提供基础设施

2. HDFS:分布式的文件系统

3. MapReduce:A software framework for distributed processing of large data sets on compute clusters。一个简化分布式编程的框架。

4. 其他工程包含:Avro(序列化系统),Cassandra(数据库项目)等

<2>. Hadoop环境建立

这里主要是包含hadoop环境的建立,以便下面能够测试MapReduce和HDFS,注意这里仅仅是在一台主机ubuntu上测试。

2.1 ubuntu必备软件

hadoop需要首先安装jdk和ssh,rsync两个依赖项,这里暂时略去java的安装过程,ubuntu下安装ssh命令如下:

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ sudo apt-get install sshrsync

安装完成之后,试着ssh localhost:

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ssh localhost
Linux ubuntu 2.6.28-11-generic #42-Ubuntu SMP Fri Apr 17 01:57:59 UTC 2009 i686
The programs included with the Ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by
applicable law.
To access official Ubuntu documentation, please visit:
http://help.ubuntu.com/
Last login: Fri Apr 22 00:28:54 2011 from localhost
xuqiang@ubuntu:~$
表明ssh安装成功,使用exit命令退出ssh。

2.2 下载hadoop的release版本

http://apache.etoak.com//hadoop/core/

2.3 修改hadoop配置文件

在上一步下载完成的压缩包,解压,目录结构如下:

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ls
bin hadoop-mapred-test-0.21.0.jar
c++ hadoop-mapred-tools-0.21.0.jar
common hdfs
conf input
hadoop-common-0.21.0.jar lib
hadoop-common-test-0.21.0.jar LICENSE.txt
hadoop-hdfs-0.21.0.jar logs
hadoop-hdfs-0.21.0-sources.jar mapred
hadoop-hdfs-ant-0.21.0.jar NOTICE.txt
hadoop-hdfs-test-0.21.0.jar output
hadoop-hdfs-test-0.21.0-sources.jar README.txt
hadoop-mapred-0.21.0.jar webapps
hadoop-mapred-0.21.0-sources.jar
hadoop-mapred-examples-0.21.0.jar

其中bin目录下主要是包含启动hadoop的脚本文件,conf目录下是hadoop的配置文件,c++目录是hadoop的c++开发时所需头文件。

修改conf/hadoop-env.sh文件,修改其中的JAVA_HOME选项:

# The java implementation to use. Required.

export JAVA_HOME=/usr/local/myinstall/jdk1.6.0_22/
2.4 试着跑一下hadoop

2.4.1 默认的情况下,hadoop是在一个所谓的standalone mode,下面是一个测试示例:

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ mkdir input
xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ cp ./conf/* ./input/
xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/hadoop jar ./hadoop-mapred-examples-0.21.0.jar grep input output 'dfs[a-z.]+'
xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ cat output/*
3 dfs.class
2 dfs.period
1 dfsmetrics.log
1 dfsadmin
1 dfs.servers
1 dfs.file
2.4.2 hadoop能够在一个节点上运行,此时是一个所谓的伪分布模式(pseudo-distributed).修改配置文件conf/core-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
修改conf/hdfs-site.xml文件:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
修改conf/mapred-site.xml文件:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

创建hdfs文件系统:

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/hadoop namenode -format

开启hadoop:

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/start-all.sh

上传刚刚建立的input文件夹下的文件到hdfs文件系统中:

bin/hadoop fs -put input/ input

还是第一个例子,但是这里是模拟运行在一个所谓的伪分布式系统中。

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/hadoop jar ./hadoop-mapred-examples-0.21.0.jar grep input output 'dfs[a-z.]+'

查看运行结果:

打开浏览器:输入如下网址:http://localhost:50070/。

之后选择/usr/xuqiang/output/part-r-00000,结果如下:

当然除了上面的方法之外还可以使用命令来查看结果,命令如下:

xuqiang@ubuntu:~/hadoop/src/hadoop-0.21.0$ ./bin/hadoop fs -cat output/*
11/04/22 04:54:39 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000
11/04/22 04:54:39 WARN conf.Configuration: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id
Bye 1
Goodbye 1
Hadoop 2
Hello 2
World 2
这里,hadoop的开发环境已经建立完成,但是其中还是存在很多疑惑的地方,这里仅仅是一个初步的学习,下面将更加深入的了解hadoop的一些设计理念和hdfs使用,MapReduce的思想。

<3>. 参考资料

3.1 hadoop home :http://hadoop.apache.org/

3.2Introduction to Parallel Programming and MapReduce:http://code.google.com/intl/zh-CN/edu/parallel/mapreduce-tutorial.html

3.3 一个异常的解决方法:http://varyall.iteye.com/blog/744773

3.4 开发环境建立:http://hadoop.apache.org/common/docs/current/single_node_setup.html

分享到:
评论

相关推荐

    Hadoop入门简介.pdf

    如果你先了解Hadoop,请您阅读《Hadoop入门简介.pdf》

    Hadoop入门实战手册

    Hadoop入门实战手册,Hadoop入门实战手册是搭建HADOOP的详细介绍手册。

    Hadoop入门手册.chm

    Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门

    hadoop入门书籍1

    hadoop的入门书籍,本人认为一共有以下五本书比较好: 1.云计算资料大全(了解云计算者必读).pdf 2.Hadoop开发者入门专刊 3.Hadoop权威指南%28第2版%29中文版 4.hadoop实战中文版+电子版pdf 5.精通HADOOP 由于上传...

    Hadoop入门到精通

    Hadoop入门到精通(带目录)--很不错的HADOOP学习资料

    hadoop入门经典书籍

    hadoop的经验入门书籍,适合刚刚开始了解学习hadoop技术的人

    Hadoop入门教程

    Hadoop入门教程 Hadoop开发者 2010入门专刊 出品Hadoop技术论坛

    hadoop 入门

    hadoop入门,新手入门(InfoQ Hadoop基本流程与应用开发,InfoQ Hadoop中的集群配置和使用技巧,InfoQ 分布式计算开源框架Hadoop介绍)

    hadoop_tutorial hadoop入门经典

    hadoop_tutorial hadoop入门经典 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。...

    Hadoop入门手册

    Hadoop入门手册 chm格式的 很适合初学者.Hadoop入门手册.zip

    hadoop入门

    hadoop入门是初学者,这只是一个入门的教程,让你了解hadoop到底是什么。

    Hadoop入门实战手册 中文版)

    Hadoop入门实战手册,本手册是中文版,且较详细

    大数据技术之Hadoop(入门).doc

    hadoop入门技术,详细讲解大数据技术中的hadoop入门基础

    hadoop入门学习 天气数据 2002年整年数据

    hadoop入门学习 mapreduce求解 天气数据 2002年整年数据的最高气温

    非常好的hadoop入门资料

    非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的...

    Hadoop入门程序java源码

    Hadoop集群搭建好后,这是用于测试用的入门级java程序源码,也是我博文的一个补充,欢迎查看下载

    hadoop从入门到精通课件pdf

    hadoop从入门到精通课件pdf,手把手带你飞(yarn,hdfs,mapreduce)

    hadoop快速入门.doc

    hadoop快速入门.doc hadoop快速入门.doc hadoop快速入门.doc

    hadoop入门学习文档

    Hadoop入门常识, 包括Hadoop平台的搭建及环境变量的配置

Global site tag (gtag.js) - Google Analytics