Tech

Cách cài đặt Hadoop trên Linux Ubuntu

Có 2 điều kiện tiên quyết

  •  Bạn phải  cài đặt và chạy Ubuntu 
  • Bạn phải  cài đặt Java.

Phần 1) Tải xuống và cài đặt Hadoop

Bước 1) Thêm người dùng hệ thống Hadoop bằng lệnh dưới đây

sudo addgroup hadoop_

sudo adduser –ingroup hadoop_ hduser_

Nhập mật khẩu, tên và các chi tiết khác của bạn.

LƯU Ý: Có khả năng xảy ra lỗi được đề cập dưới đây trong quá trình thiết lập và cài đặt này.

“hduser is not in the sudoers file. This incident will be reported.”

Lỗi này có thể được giải quyết bằng cách Đăng nhập với tư cách là người dùng gốc

Thực hiện lệnh

sudo adduser hduser_ sudo

Re-login as hduser_

Bước 2) Định  cấu hình SSH

Để quản lý các nút trong một cụm, Hadoop yêu cầu quyền truy cập SSH

Đầu tiên, chuyển đổi người dùng, nhập lệnh sau

su – hduser_

Lệnh này sẽ tạo một key mới.

ssh-keygen -t rsa -P “”

Bật quyền truy cập SSH vào máy cục bộ bằng cách sử dụng key này.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Bây giờ hãy kiểm tra thiết lập SSH bằng cách kết nối với localhost với tư cách là người dùng ‘hduser’.

ssh localhost

Lưu ý: Xin lưu ý, nếu bạn thấy lỗi bên dưới khi phản hồi với ‘ssh localhost’, thì có khả năng SSH không khả dụng trên hệ thống này-

Để giải quyết điều này –

Xóa SSH bằng cách sử dụng,

sudo apt-get purge openssh-server

Thực hành tốt là thanh lọc trước khi bắt đầu cài đặt

Cài đặt SSH bằng lệnh-

sudo apt-get install openssh-server

Bước 3)  Bước tiếp theo là Tải xuống Hadoop

Chọn stable

Chọn tệp tar.gz (không phải tệp có src)

Sau khi quá trình tải xuống hoàn tất, hãy điều hướng đến thư mục chứa tệp tar

Vào,

sudo tar xzf hadoop-2.2.0.tar.gz

Bây giờ, đổi tên hadoop-2.2.0 thành hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_: hadoop_ hadoop

Phần 2) Định cấu hình Hadoop

Bước 1)  Sửa đổi   tệp ~ / .bashrc

Thêm các dòng sau vào cuối tệp  ~ / .bashrc

#Set HADOOP_HOME

export HADOOP_HOME=<Installation Directory of Hadoop>

#Set JAVA_HOME

export JAVA_HOME=<Installation Directory of Java>

# Add bin/ directory of Hadoop to PATH

export PATH=$PATH:$HADOOP_HOME/bin

Bây giờ, tạo nguồn cấu hình môi trường này bằng lệnh dưới đây

. ~ / .bashrc

Bước 2)  Các cấu hình liên quan đến HDFS

Đặt  JAVA_HOME  bên trong tệp  $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Hướng dẫn thiết lập Hadoop - Cài đặt và cấu hình

Với

Có hai tham số trong  $ HADOOP_HOME / etc / hadoop / core-site.xml  cần được thiết lập-

1.  ‘hadoop.tmp.dir’ –  Được sử dụng để chỉ định một thư mục sẽ được Hadoop sử dụng để lưu trữ các tệp dữ liệu của nó.

2. ‘fs.default.name’ –  Điều này chỉ định hệ thống tệp mặc định.

Để đặt các thông số này, hãy mở core-site.xml

sudo gedit $ HADOOP_HOME / etc / hadoop / core-site.xml

Hướng dẫn thiết lập Hadoop - Cài đặt và cấu hình

Sao chép dòng dưới đây vào giữa các thẻ <configuration> </configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/app/hadoop/tmp</value>

<description>Parent directory for other temporary directories.</description>

</property>

<property>

<name>fs.defaultFS </name>

<value>hdfs://localhost:54310</value>

<description>The name of the default file system. </description>

</property>

Điều hướng đến thư mục  $ HADOOP_HOME / etc / Hadoop

Bây giờ, hãy tạo thư mục được đề cập trong core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Cấp quyền cho thư mục

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

sudo chmod 750 <Path of Directory created in above step>

Bước 3) Bản đồ Giảm cấu hình

Trước khi bạn bắt đầu với các cấu hình này, hãy đặt đường dẫn HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Và nhập

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Tiếp theo nhập

sudo chmod + x /etc/profile.d/hadoop.sh

Thoát khỏi Nhà ga và khởi động lại lần nữa

Nhập echo $ HADOOP_HOME. Để xác minh đường dẫn

Bây giờ sao chép tệp

sudo cp $ HADOOP_HOME / etc / hadoop / mapred-site.xml.template $ HADOOP_HOME / etc / hadoop / mapred-site.xml

Mở  mapred-site.xml  tập tin

sudo gedit $ HADOOP_HOME / etc / hadoop / mapred-site.xml

Thêm các dòng cài đặt bên dưới vào giữa các thẻ <configuration> và </configuration>

<property>

<name>mapreduce.jobtracker.address</name>

<value>localhost:54311</value>

<description>MapReduce job tracker runs at this host and port.

</description>

</property>

Mở  $ HADOOP_HOME / etc / hadoop / hdfs-site.xml  như bên dưới,

sudo gedit $ HADOOP_HOME / etc / hadoop / hdfs-site.xml

Thêm dòng cài đặt bên dưới giữa các thẻ <configuration> và </configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

<description>Default block replication.</description>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/home/hduser_/hdfs</value>

</property>

Tạo một thư mục được chỉ định trong cài đặt ở trên-

sudo mkdir -p <Path of Directory used in above setting>

sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>

sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 <Path of Directory created in above step>

sudo chmod 750 /home/hduser_/hdfs

Bước 4)  Trước khi chúng tôi khởi động Hadoop lần đầu tiên, hãy định dạng HDFS bằng lệnh dưới đây

$ HADOOP_HOME / bin / hdfs namenode -format

Bước 5)  Khởi động cụm nút đơn Hadoop bằng lệnh dưới đây

$ HADOOP_HOME / sbin / start-dfs.sh

Một đầu ra của lệnh trên

$ HADOOP_HOME / sbin / start-yarn.sh

Sử dụng   công cụ / lệnh ‘jps’ , xác minh xem tất cả các quy trình liên quan đến Hadoop có đang chạy hay không.

Nếu Hadoop đã khởi động thành công thì đầu ra của jps sẽ hiển thị NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Bước 6)  Dừng Hadoop

$ HADOOP_HOME / sbin / stop-dfs.sh

$ HADOOP_HOME / sbin / stop-yarn.sh

Blog Tiền Điện Tử

Blog tiền điện tử công thông tin tổng hợp uy tín nhất tất cả các mảng xã hội, giáo dục , công nghệ số. Với khả năng số hóa mạnh mẽ hy vọng sẽ mang lại cho quý bạn đọc những thông tin chính xác nhất 24/24
Back to top button