Perintah Hadoop DFS teratas, yang harus Anda kuasai, untuk bekerja dengan Big Data

Hadoop adalah alat sumber terbuka, yang secara eksklusif digunakan oleh penggemar data besar untuk mengelola dan menangani data dalam jumlah besar secara efisien. Ya, besar berarti besar. Ya, sangat besar. Saya tidak berbicara tentang 1 TB data, yang ada di hard drive Anda. Tetapi data besar mengacu pada bekerja dengan banyak data, yang, dalam banyak kasus, dalam kisaran Petabyte dan Exabyte, atau bahkan lebih dari itu. Saya tidak berpikir, seberapa besar itu, perlu penjelasan! Ya, dengan bantuan Hadoop, begitu banyak data yang dapat dikelola secara efisien untuk tujuan penambangan, yang nantinya dapat digunakan untuk tujuan menampilkan iklan yang ditargetkan, rekayasa sosial, dan pemasaran dan untuk tujuan serupa lainnya.

Saat bekerja dengan data besar, ruang disk seharusnya tidak menjadi kendala, dan untuk itu, perangkat keras komoditas digunakan untuk menyimpan dan memproses data dalam jumlah besar, tanpa mengkhawatirkan biaya penyiapan awal. Sebelum masuk ke perintah Hadoop, pertama-tama mari kita cari tahu dasar-dasar cara kerja Hadoop, untuk membantu Anda memahami perintah dengan lebih baik, dan membuat pekerjaan Anda dengan Hadoop menjadi hal yang mudah.

Hadoop sebenarnya bekerja pada arsitektur master-slave, di mana master memberikan pekerjaan ke berbagai budak lain, yang terhubung dengannya. Dalam kasus Hadoop, master disebut node Nama, sedangkan budak lain yang terhubung disebut node Data. Baik node Nama dan node Data berkomunikasi satu sama lain dengan bantuan SSH, dan sebagai user Hadoop, Anda hanya perlu menjalankan perintah, dan Hadoop akan menangani sisanya. Anda tidak perlu khawatir tentang koneksi antara node Nama dan node Data kecuali jika Anda adalah administrator Hadoop.

Hadoop memiliki sistem file sendiri, yang disebut sebagai Hadoop Distributed File System atau HDFS. Setiap node data dan node nama memiliki sistem file lokalnya sendiri, dan HDFS menyediakan jembatan untuk berkomunikasi dengan sistem file lokal yang tersedia di dalam node yang terhubung. Terlepas dari simpul nama, ada simpul nama sekunder, yang berfungsi, setelah simpul nama turun. Node nama sekunder hanya bertindak sebagai cadangan. Itu tidak penting dalam konteks ini, karena kita hanya akan membahas perintah Hadoop. Semua perintah yang akan saya berikan di sini adalah perintah sistem file, yang akan Anda perlukan jika Anda bekerja dengan Hadoop. Ada juga sejumlah perintah admin Hadoop lainnya, yang dapat membantu jika Anda adalah administrator Hadoop. Saya akan membuat artikel terpisah, tentang perintah-perintah itu, dan jika Anda menginginkannya, beri komentar di bawah.

Karena Hadoop dibuat dengan Java dan berfungsi di Linux, perintah Hadoop dan Linux sangat mirip, dan sebagian besar perintah Linux digunakan di Hadoop. Sekarang mari kita beralih ke perintah pertama kita di daftar perintah Hadoop HDFS.

Daftar perintah tipe dasar Linux untuk Hadoop DFS

mulai-semua.sh

Memulai daemon Hadoop, node nama, dan node data yang terhubung.

stop-all.sh

Menghentikan daemon Hadoop, node nama, dan node data yang terhubung.

Ada sejumlah perintah, yang sama untuk Linux dan Hadoop, tetapi ada sedikit perubahan. Mari kita temukan mereka.

hdfs dfs -ls

Output hadoop fs -ls, akan menampilkan semua file dan direktori pada direktori home Hadoop. Anda dapat menemukan kesamaan antara perintah ‘ls’ asli di Linux, yang digunakan untuk membuat daftar semua file dan direktori di direktori kerja saat ini.

hdfs dfs -ls <HDFS URL>

Daftar semua file dan direktori di lokasi HDFS, dimasukkan melalui URL.

  • Contoh: hdfs dfs -ls kasar/besar/data

Daftar semua file dan direktori dalam jalur ‘kasar/besar/data’ di HDFS

hdfs dfs -letakkan < URL file lokal > <URL HDFS>

Menempatkan file dari sistem file lokal, dari URL yang diberikan, ke HDFS, di lokasi yang dimasukkan. Ini seperti menyalin file dan menempelkannya.

  • Contoh: hdfs dfs -letakkan abc.txt kasar/besar/data

Letakkan file dengan nama ‘abc.txt’, dari direktori kerja saat ini ke jalur ‘rough/big/data’ di HDFS.

hdfs dfs -dapatkan <HDFS URL> <URL sistem file lokal>

Mendapat file dari lokasi mana pun dalam HDFS ke lokasi yang diinginkan di sistem file lokal. Ini mirip dengan menyalin dan menempel, tetapi sumbernya ada di HDFS.

  • Contoh: hdfs dfs -get rough/big/data/file.txt lokal/client

Mengambil file dengan nama ‘file.txt’ dari URL ‘rough/big/data’ dalam HDFS, ke direktori ‘local/client’, pada sistem file lokal.

hdfs dfs -copyFromLocal <URL file lokal> <URL pada HDFS> / hdfs dfs -copyFromLocal -f <URL file lokal> <URL pada HDFS>

Menyalin file dari sistem file lokal ke URL yang diberikan, yang ada di HDFS. Dengan -f, file akan ditimpa pada direktori tujuan. Cara kerjanya sangat mirip dengan perintah ‘put’, yang telah dibahas sebelumnya.

  • Contoh: hdfs dfs –copyFromLocal -f abc.txt rough/big/data

Salin file bernama ‘abc.txt’, dari direktori kerja saat ini, ke jalur HDFS ‘rough/big/data’, meskipun file dengan nama yang sama ada di sana.

hdfs dfs -moveFromLocal <URL file lokal> <URL pada HDFS>

Ini mirip dengan perintah sebelumnya, tetapi satu-satunya perbedaan adalah, file sumber tidak akan ada lagi. Ini mirip dengan perintah cut and paste di Windows, dan interface GUI lainnya.

  • Contoh: hdfs dfs -moveFromLocal abc.txt kasar/besar/data

Pindahkan file dengan nama ‘abc.txt’, dari direktori kerja saat ini, ke jalur HDFS ‘rough/big/data’. File sumber ‘abc.txt’, di sumber akan dihapus setelah menjalankan perintah.

hdfs dfs -copyToLocal <URL file HDFS> <direktori lokal >

Salin file dari URL HDFS, ke direktori lokal, di URL yang diberikan. URL lokal harus selalu berupa direktori dalam kasus ini.

  • Contoh: hdfs dfs –copyToLocal rough/big/data/abc.txt training/clients

Salin file dengan nama abc.txt dari URL ‘rough/big/data’ dari URL HDFS ke client direktori lokal, di dalam direktori pelatihan.

hdfs dfs -moveToLocal <URL file HDFS> <direktori lokal >

Memindahkan file dari URL HDFS, ke direktori lokal, di URL yang diberikan. Sama seperti perintah sebelumnya, URL lokal harus selalu berupa direktori. Sama seperti memotong dan menempel, file dari URL sumber di HDFS akan dihapus.

  • Contoh: pelatihan hdfs dfs -moveToLocal kasar/besar/data/abc.txt/client

Ini akan memindahkan file dengan nama abc.txt dari URL ‘kasar/besar/data’ dari URL HDFS ke client direktori lokal, dalam pelatihan direktori. Setelah dieksekusi, file dari URL HDFS akan otomatis terhapus.

hdfs dfs –cp <URL sumber HDFS> <URL tujuan HDFS> / hdfs dfs –cp -f <URL sumber HDFS> <URL tujuan HDFS>

Salin file dari URL HDFS ke tujuan lain dalam HDFS. Dengan bantuan -f, file akan ditimpa, di direktori tujuan.

  • Contoh: hdfs dfs -cp rough/big/data/abc.txt rough/big

Salin file bernama ‘abc.txt’, dari direktori ‘rough/big/data’ di HDFS, ke direktori tujuan, yaitu ‘rough/big’.

hdfs dfs –mv <URL sumber HDFS> <URL tujuan HDFS>

Pindahkan file dari URL HDFS ke tujuan lain dengan HDFS. Ini berfungsi seperti potong dan tempel, tetapi hanya terbatas pada URL HDFS. Karena file akan dipindahkan, file sumber akan dihapus setelah operasi.

  • Contoh: hdfs dfs -mv kasar/besar/data/abc.txt kasar/besar

Pindahkan file bernama ‘abc.txt’, dari direktori ‘rough/big/data’ pada HDFS, ke direktori tujuan, yaitu ‘rough/big’, dan hapus file ‘abc.txt’ dari direktori sumber.

hdfs dfs -cat <URL/nama file>

Tampilkan konten file, yang disimpan di beberapa lokasi dalam HDFS, di URL yang diberikan.

  • Contoh: hdfs dfs -cat kasar/besar/data/abc.txt

Menampilkan konten file ‘abc.txt’, dalam direktori ‘rough/big/data’, pada HDFS.

hdfs dfs -chmod <mode> <HDFS URL/nama file> / hdfs dfs –chmod –r <mode> <HDFS URL>

Ubah mode izin file, yang ada di URL, dalam HDFS. Dengan ‘-r’, mode semua file yang ada di dalam URL akan diubah, secara rekursif.

  • Contoh: hdfs dfs -chmod 777 rough/big/data/abc.txt

Tetapkan semua izin ke file ‘abc.txt’, dalam direktori ‘rough/big/data’ di HDFS untuk membaca, menulis, dan mengeksekusi, untuk user saat ini, user dari grup yang sama, dan lainnya. Ini didasarkan pada sistem bilangan oktal, di mana setiap nomor mengacu pada satu izin. Anda dapat menemukan informasi lebih lanjut tentang pengaturan izin di Linux, dengan angka oktal, online.

hdfs dfs -mkdir <URL/Nama direktori> / hdfs dfs -mkdir –p <URL/Nama direktori>

Membuat direktori di dalam HDFS, dengan nama yang dimasukkan, di URL yang dimasukkan. Jika nama direktori langsung dimasukkan setelah mkdir, direktori baru dengan nama yang diinginkan akan dibuat langsung di direktori home HDFS. Dengan –p, semua direktori induk juga akan dibuat, jika tidak ada.

  • Contoh: hdfs dfs -mkdir rough/big/data/Hadoop

Ini akan membuat direktori baru bernama ‘Hadoop’, di dalam URL ‘kasar/besar/data’, di HDFS.

  • Contoh: hdfs dfs -mkdir -p learn/big/data/direc

Sejumlah direktori baru akan dibuat, di mana ‘direc’ akan ada di data, yang akan ada di ‘big’, yang akan ada lagi di ‘learn’. Jika salah satu direktori sudah ada, direktori berikutnya akan secara otomatis dibuat di direktori induk.

hdfs dfs -rm <URL/nama file> / hdfs dfs -rm -r <URL>

Ini digunakan untuk menghapus atau menghapus file, dengan nama file yang diberikan, dari lokasi HDFS tertentu. –r dapat digunakan untuk menghapus file secara rekursif.

  • Contoh: hdfs dfs kasar/besar/data/del.txt

Ini akan menghapus file dengan nama del.txt, dari lokasi HDFS yang diberikan, yaitu kasar/besar/data.

hdfs dfs –touchz <URL/nama file>

Ini digunakan untuk membuat file kosong atau struktur file dengan nama file yang diberikan, di lokasi HDFS. Ukuran file akan menjadi 0 byte.

  • Contoh: hdfs dfs –touchz rough/big/data/empty.txt

Ini akan membuat file, dengan nama ‘empty.txt’, pada URL HDFS ‘rough/big/data’. Ukuran file akan menjadi 0 byte. Hal yang perlu diingat adalah, tidak semudah itu mengedit file langsung di HDFS. Anda harus menyalinnya ke sistem lokal Anda untuk mengeditnya, atau Anda dapat menggunakan alat Hadoop lain seperti MapReduce untuk mengedit file kosong atau file lainnya. Anda tidak dapat menggunakan Nano, atau editor CUI lainnya untuk mengedit file itu.

hdfs dfs -test <-e/-z/-d> <URL/nama file>

Pengujian, apakah file tersebut ada atau tidak.

Dengan –e, file akan diperiksa di dalam URL, dan jika file ada, itu akan mengembalikan 0.

Dengan –z, file akan diperiksa, dan jika ukuran file dalam URL HDFS adalah 0 byte, 0 akan dikembalikan.

Dengan –d, 0 akan dikembalikan, jika URL yang diberikan menunjuk ke direktori.

hdfs dfs -appendToFile <URL file lokal> <URL File HDFS>

Ini digunakan untuk menambahkan file lokal ke file yang ada di HDFS.

  • Contoh: hdfs dfs –appendToFile abc.txt rough/big/data/def.txt

Ini akan menambahkan konten file lokal abc.txt, ke file def.txt, yang ada pada URL yang diberikan pada HDFS.

Hadoop FS vs HDFS DFS

Jadi, hal dasarnya adalah, jika Anda ingin menjalankan perintah Hadoop, ‘hdfs dfs’ harus disebutkan, yang akan membuat Terminal mengerti, Anda ingin bekerja dengan HDFS. Alih-alih ‘hdfs dfs’, Anda bahkan dapat menggunakan ‘hadoop fs’, dan kemudian perintah. Anda akan mendapatkan hasil yang sama.

Misalnya, ‘hdfs dfs –ls’, dan ‘hadoop fs –ls’ akan memberikan output yang sama. Tapi, ‘hdfs dfs’ lebih baik, karena semua tombol ditempatkan dengan dekat.

Saya baru saja memberikan beberapa perintah dasar, yang sebagian besar akan Anda butuhkan, untuk tugas sehari-hari, yang terkait dengan Hadoop. Ada sejumlah perintah lain, yang hampir tidak Anda perlukan dari waktu ke waktu. Mengingat perintah di atas pasti akan sangat membantu untuk menguasai dasar-dasar Hadoop, dan itu akan cukup untuk keperluan industri juga.

Semoga daftar kecil perintah sistem file Hadoop bermanfaat bagi Anda, dan jika Anda memiliki saran, beri komentar di bawah.

LIHAT JUGA:

  • Cara mencari file, direktori, dengan kriteria tertentu di terminal Linux
  • Jalankan aplikasi Linux Grafis di Windows 10 dengan Bash asli
  • 6 Perangkat Lunak Mesin Pencari Sumber Terbuka Teratas & Terbaik untuk Perusahaan
  • Instal dan gunakan Bash di Windows 10 untuk menjalankan Ubuntu atau command line lainnya dari Windows