Bắt nguồn từ câu trả lời của @Luis Alvarado , đây là phiên bản của tôi cho Ubuntu 14.04 và Hadoop 2.5.1
Tóm lại
- Cài đặt Java
- Chuẩn bị một người dùng điều hành cho Hadoop
hduser
- Chuyển sang
hduser
từ bây giờ
- Cho phép
hduser
điều khiển từ xa thông qua ssh với cụm từ ít hơn
- Vô hiệu hóa IPv6
- Tải xuống và cấu hình gói Hadoop
- Chuẩn bị đường dẫn hệ thống $ HADOOP_HOME và $ JAVA_HOME
- Cấu hình dịch vụ của Hadoop
- Bắt đầu dịch vụ của Hadoop
Làm xong. Chúc may mắn!
Các bước chi tiết
Cài đặt Java
Tải xuống và cài đặt
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update && sudo apt-get upgrade
$ sudo apt-get install oracle-java7-installer
Hãy chắc chắn rằng bạn đã cài đặt Java7
$ which java
$ ls -l /usr/bin/java
$ ls -l /etc/alternatives/java
chúng ta nên có java
điểm/usr/lib/jvm/java-7-oracle/jre/bin/java
Chuẩn bị một người dùng điều hành cho Hadoophduser
Tạo người dùng hduser
trong nhómhadoop
$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
Cấp hduser
các sudo đặc quyền
Chỉnh sửa sudo
$ sudo visudo
Thêm vào cuối dòng này
hduser ALL=(ALL:ALL) ALL
Chuyển sang hduser
từ bây giờ
$ su - hduser
Cho phép hduser
điều khiển từ xa thông qua ssh với cụm từ ít hơn
Cài đặt openssh
$ sudo apt-get install openssh-server
Tạo khóa công khai / riêng tư RSA cho kết nối SSH; cụm mật khẩu trốngparameter -P ""
$ ssh-keygen -t rsa -P ""
$ cat .ssh/id_rsa.pub >> .ssh/authorized_keys
Đảm bảo hduser
có thể ssh từ xa cục bộ mà không cần mật khẩu
$ ssh localhost
Vô hiệu hóa IPv6
Chỉnh sửa tập tin cấu hình
$ sudo nano /etc/sysctl.conf
Sao chép đến cuối
#disable ipv6
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
Đảm bảo IPv6 tắt bằng cách khởi động lại hoặc gọi
$ sudo sysctl -p
Sau đó gọi
$ cat /proc/sys/net/ipv6/conf/all/disable_ipv6
Nó sẽ nói 1 có nghĩa là OK ^^
Tải xuống và cấu hình gói Hadoop
Tải xuống các gói Hadoop 2.5.1 từ trang web Apache Hadoop
URL trực tiếp cho gói này là liên kết này
http://www.eu.apache.org/dist/hadoop/core/hadoop-2.5.1/hadoop-2.5.1.tar.gz
Vì vậy, hãy tải xuống hduser
thư mục nhà của bạn, giải nén nó và đổi tên nó thànhhadoop
$ wget http://www.eu.apache.org/dist/hadoop/core/hadoop-2.5.1/hadoop-2.5.1.tar.gz
$ tar -xvzf hadoop-2.5.1.tar.gz
$ mv hadoop-2.5.1 hadoop
Hãy chắc chắn rằng chúng tôi có Hadoop được lưu trữ trong hduser
nhà
$ ls /home/hduser/hadoop
Chuẩn bị đường dẫn hệ thống $ HADOOP_HOME và $ JAVA_HOME
Chỉnh sửa hduser
tập tin .bashrc
$ nano .bashrc
Đặt các giá trị cuối cho $HADOOP_HOME
và$JAVA_HOME
# Set Hadoop-related environment variables
export HADOOP_HOME=/home/hduser/hadoop
# Set JAVA_HOME (we will also configure JAVA_HOME directly for Hadoop later on)
export JAVA_HOME=/usr/lib/jvm/java-7-oracle
Thêm các binary
thư mục Hadoop vào hệ thống$PATH
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
Mở một thiết bị đầu cuối mới, đăng nhập với tư cách hduser
và đảm bảo bạn có $ HADOOP_HOME với các lệnh có sẵn
$ echo $HADOOP_HOME
$ which start-all.sh
$ which start-dfs.sh
$ which start-yarn.sh
Chúng ta sẽ thấy đường dẫn đầy đủ của những cái tên đó.
Cấu hình dịch vụ của Hadoop
Mỗi thành phần trong Hadoop được cấu hình bằng tệp XML.
Các thuộc tính phổ biến đi trong core-site.xml
Các thuộc tính HDFS đi trong hdfs-site.xml
Các thuộc tính MapReduce đi vào mapred-site.xml
Các tệp này đều nằm trong thư mục $ HADOOP_HOME / etc / hadoop
Xác định, một lần nữa, JAVA_HOME hadoop-env.sh
bằng cách chỉnh sửa dòng
export JAVA_HOME=/usr/lib/jvm/java-7-oracle
Xác định Hadoop temp folder
và file system
tên trong core-site.xml tại
<configuration>
...
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hduser/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. A URI whose
scheme and authority determine the FileSystem implementation. The
uri's scheme determines the config property (fs.SCHEME.impl) naming
the FileSystem implementation class. The uri's authority is used to
determine the host, port, etc. for a filesystem.</description>
</property>
...
</configuration>
Chúng ta cần chuẩn bị điều này temp folder
như được cấu hình tại/home/hduser/tmp
$ cd /home/hduser
$ mkdir tmp
$ chown hduser:hadoop tmp
$ chmod 755 tmp
Xác định file system
là block replication
trong HDFS-site.xml
<configuration>
...
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
...
</configuration>
Xác định map-reduce job
trong mapred-site.xml
<configuration>
...
<property>
<name>mapred.job.tracker</name>
<value>localhost:54311</value>
<description>The host and port that the MapReduce job tracker runs
at. If "local", then jobs are run in-process as a single map
and reduce task.
</description>
</property>
...
</configuration>
định dạng name node
$ hdfs namenode -format
Bắt đầu dịch vụ Hadoop
Gọi điện
$ start-dfs.sh && start-yarn.sh
hai lệnh này được đặt tại $ HADOOP_HOME / sbin mà chúng ta đã thêm vào hệ thống $ PATH trước đó.
Đảm bảo dịch vụ Hadoop được khởi động đúng cách
$ jps
chúng ta nên xem