本文地址:http://blog.csdn.net/kongxx/article/details/6896214
1. 首先为hadoop的集群准备几台机器,这里机器名如下:
2. 修改每个机器的/etc/hosts文件,确保每个机器都可以通过机器m名互相访问;
3. 在上面每个机器上的相同位置分别安装hadoop,这里安装的都是hadoop-0.20.203.0rc1.tar.gz包,并且假定安装路径都是/data/fkong/hadoop-0.20.203.0;
4. 修改所有机器上的${HADOOP_HOME}/conf/hadoop-env.sh文件,将JAVA_HOME指定到正确的jdk路径上;
5. 修改master机器上的${HADOOP_HOME}/conf/slaves文件,修改后文件内容如下:
6. 修改和部署配置文件
6.1 编辑${HADOOP_HOME}/conf/core-site.xml文件,内容修改如下:
6.2 编辑${HADOOP_HOME}/conf/hdfs-site.xml文件,内如修改如下:
6.3 编辑${HADOOP_HOME}/conf/mapred-site.xml文件,内如修改如下:
6.4 将以上三个配置文件分别部署的每个slave节点上;
7. 格式化一个新的分布式文件系统:
8. 执行hadoop
8.1 启动hadoop后台daemon
启动后可以通过以下网页方式查看NameNode和JobTracker状态,此时可以从NameNode状态网页上看到"Live Nodes"的数量变成了两个,此时表示已经部署成功
8.2 运行测试
在hadoop默认提供了一些可以运行的测试工具在安装包目录下,下面就用这些测试程序来验证分布式模式是否成功
8.2.1 测试一
运行下面的命令将从本地复制一个文件到hdfs文件系统的/test/目录下
运行下面的命令将显示hdfs文件系统上/test/目录下的文件
输出结果如下:
运行完上面的命令以后,可以通过http://localhost:50070/来查看hdfs上的文件,此时可以看到slave节点上已经有刚才命令上传的文件存在了。
8.2.2 测试二
运行下面的命令
然后访问http://localhost:50030/,可以看到会有job在cluster里运行
8.2.3 测试三
首先准数据,下面两个命令是在hdfs上创建一个/test/input目录,然后从本地复制一下文件到此目录下
运行测试来查找一些字符串
查看测试结果
8.3 停止hadoop后台daemon
分享到:
相关推荐
《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地...
《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。 《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读...
《Hadoop硬实战》包含: ·Hadoop和MapReduce的基本概念 ·85个实战和测试技术 ·真实的场景,实用的解决方案 ·如何整合MapReduce和R前言 致谢关于本书 第1 部分 背景和基本原理1 跳跃中的Hadoop1.1 什么...
MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的...
—— EasyHadoop 国内专业的Hadooop社区,致力于让Hadoop大数据分析更简单第一部分 Hadoop——一种分布式编程框架第1 章 Hadoop简介1.1 为什么写《Hadoop 实战》1.2 什么是Hadoop1.3 了解分布式系统和Hadoop1.4 ...
《大规模分布式系统架构与设计实战》从作者的实战经验出发,深入浅出地讲解了如何建立一个Hadoop那样的分布式系统,实现对多台计算机CPU、内存、硬盘的统一利用,从而获取强大计算能力去解决复杂问题。一般互联网...
第一部分 Hadoop——一种分布式编程框架第1章 Hadoop简介 21.1 为什么写《Hadoop 实战》 31.2 什么是Hadoop 31.3 了解分布式系统和Hadoop 41.4 比较SQL数据库和Hadoop 51.5 理解MapReduce 61.5.1 动手扩展一个简单...
3.6 .....................................................................................8 伪分布式模式的操作方法 3.6.1 ...................................................................................
实时数据流是现在互联网公司、甚至拥有大规模数据的传统企业的主要模式, 实时数据(Real-time Activity Data)就是那些非交易,不需要秒级响应的数据, 但在后续的分析中产生极大作用,例如个性化推荐、运营服务监控...
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
05-hadoop分布式集群HA模式部署.avi 06-hdfs--HA测试.avi 07-hdfs--动态增加节点和副本数量管理.avi 08-HA的java api访问要点.avi 09-hive入门.avi 第六天 hbase hive 01-复习ha相关.avi 02-hive的元数据库...
Hadoop分布式文件系统;Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;...
第3章 Hadoop分布式文件系统 HDFS的设计 HDFS的概念 数据块 namenode和datanode 命令行接口 基本文件系统操作 Hadoop文件系统 接口 Java接口 从Hadoop URL中读取数据 通过FileSystem API读取数据 写入数据 目录 查询...
Hadoop项目实战 数据仓库Hive Hive项目实战 Hadoop分布式集群搭建 大数据概述 商品推荐 预言家 大数据4V特征 1、数据量Volume 2、多样性,复杂性Variety 3、基于高度分析的新价值Value 4、速度Velocity 大数据带来的...
LVS负载均衡DR模式安装调试介绍 LVS负载均衡深入进阶实战 LVS调度策略及负载均衡原理深入 LVS深入及NAT集群调试 Nginx反向代理实战 Nginx实战进阶 Nginx动静分离URL转发实战 NFS共享文件系统实战 动态内容静态化加速...
1.Hadoop,Apache开源的分布式框架。2.HDFS,hadoop的分布式文件系统3.NameNode,hadoop HDFS元数据主节点服务器,负责保存DataNode 文件存储元数据信息。4.JobTracker,hadoop的Map/Reduce调度器,负责与TackTracker...
技术点70 使用分布式缓存进行IP 地理定位 11.2.5 流 技术点71 使用你的脚本合并Pig 11.2.6 合并 技术点72 在Pig 中合并数据 11.2.7 排序 技术点73 元组排序 11.2.8 存储数据 技术点74 在...
就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非...
Hbase是Hadoop Database的简称 Hbase是分布式、面向列的开源数据库 ...HBase运行模式:单机模式、伪分布式模式、分布式模式 Hbase自带Zookeeper,zk为其提供稳定服务和故障转移机制。也可以使用独立的zk