Menginstal Apache Spark di Ubuntu 20.04 atau 18.04

Di sini kita akan melihat cara menginstal Apache Spark di Ubuntu 20.04 atau 18.04, perintah akan berlaku untuk Linux Mint, Debian dan sistem Linux serupa lainnya.

Apache Spark adalah alat pemrosesan data tujuan umum yang disebut engine pemrosesan data. Digunakan oleh insinyur data dan ilmuwan data untuk melakukan kueri data yang sangat cepat pada sejumlah besar data dalam kisaran terabyte. Ini adalah kerangka kerja untuk perhitungan berbasis cluster yang bersaing dengan Hadoop Map / Reduce klasik dengan menggunakan RAM yang tersedia di cluster untuk eksekusi pekerjaan yang lebih cepat.

Selain itu, Spark juga menawarkan opsi untuk mengontrol data melalui SQL, memprosesnya dengan streaming (mendekati) waktu nyata, dan menyediakan database grafiknya sendiri dan perpustakaan pembelajaran engine. Kerangka kerja ini menawarkan teknologi dalam memori untuk tujuan ini, yaitu dapat menyimpan kueri dan data secara langsung di memori utama node cluster.

Apache Spark sangat ideal untuk memproses data dalam jumlah besar dengan cepat. Model pemrograman Spark didasarkan pada Resilient Distributed Datasets (RDD), kelas koleksi yang beroperasi terdistribusi dalam sebuah cluster. Platform open source ini mendukung berbagai bahasa pemrograman seperti Java, Scala, Python, dan R.

Langkah-langkah untuk Instalasi Apache Spark di Ubuntu 20.04

Langkah-langkah yang diberikan di sini dapat digunakan untuk versi Ubuntu lainnya seperti 21.04/18.04, termasuk di Linux Mint, Debian, dan Linux sejenis.

1. Instal Java dengan dependensi lain

Di sini kita menginstal versi Jave terbaru yang tersedia yang merupakan persyaratan Apache Spark bersama dengan beberapa hal lainnya – Git dan Scala untuk memperluas kemampuannya.

sudo apt install default-jdk scala git

2. Unduh Apache Spark di Ubuntu 20.04

Sekarang, kunjungi situs web resmi Spark dan unduh versi terbaru yang tersedia. Namun, saat menulis tutorial ini versi terbaru adalah 3.1.2. Karenanya, di sini kita mengunduh yang sama, jika berbeda saat Anda melakukan instalasi Spark di sistem Ubuntu Anda, lakukan itu. Cukup salin tautan download alat ini dan gunakan dengan wget atau unduh langsung di sistem Anda.

wget https://downloads.Apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

3. Ekstrak Spark ke /opt

Untuk memastikan kita tidak menghapus folder yang diekstrak secara tidak sengaja, letakkan di tempat yang aman yaitu direktori /opt.

sudo mkdir /opt/spark

sudo tar -xf spark*.tgz -C /opt/spark –strip-component 1

Juga, ubah izin folder, sehingga Spark dapat menulis di dalamnya.

sudo chmod -R 777 /opt/spark

4. Tambahkan folder Spark ke jalur sistem

Sekarang, karena kita telah memindahkan file ke direktori /opt, untuk menjalankan perintah Spark di terminal, kita harus menyebutkan seluruh jalurnya setiap kali yang mengganggu. Untuk mengatasi ini, kita mengonfigurasi variabel lingkungan untuk Spark dengan menambahkan jalur rumahnya ke file profil/bashrc sistem. Ini memungkinkan kita untuk menjalankan perintahnya dari mana saja di terminal terlepas dari direktori mana kita berada.

echo “ekspor SPARK_HOME=/opt/spark” >> ~/.bashrc echo “ekspor PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin” >> ~/.bashrc echo “ekspor PYSPARK_PYTHON=/usr/bin/ python3” >> ~/.bashrc

Reload shell:

sumber ~/.bashrc

5. Mulai server master Apache Spark di Ubuntu

Karena kita telah mengonfigurasi lingkungan variabel untuk Spark, sekarang mari kita mulai server master mandirinya dengan menjalankan skripnya:

start-master.sh

Ubah Spark Master Web UI dan Listen Port (opsional, gunakan hanya jika diperlukan)

Jika Anda ingin menggunakan port khusus maka itu mungkin untuk digunakan, opsi atau argumen yang diberikan di bawah ini.

–port – Port untuk service untuk mendengarkan (default: 7077 untuk master, acak untuk pekerja) –webui-port – Port untuk UI web (default: 8080 untuk master, 8081 untuk pekerja)

Contoh – Saya ingin menjalankan Spark web UI di 8082, dan membuatnya mendengarkan port 7072 maka perintah untuk memulainya akan seperti ini:

start-master.sh –port 7072 –webui-port 8082

6. Akses Spark Master (spark://Ubuntu:7077) – Interface web

Sekarang, mari kita akses interface web server master Spark yang berjalan pada nomor port 8080. Jadi, di browser Anda buka http://127.0.0.1:8080.

Master kita berjalan di spark:// Ubuntu :7077, di mana Ubuntu adalah nama host sistem dan bisa berbeda dalam kasus Anda.

Jika Anda menggunakan server CLI dan ingin menggunakan browser dari sistem lain yang dapat mengakses alamat IP server, untuk itu buka dulu 8080 di firewall. Ini akan memungkinkan Anda untuk mengakses interface web Spark dari jarak jauh di – http://your-server-ip-addres:8080

sudo ufw izinkan 8080

7. Jalankan Skrip Pekerja Budak

Untuk menjalankan pekerja budak Spark, kita harus memulai skripnya yang tersedia di direktori yang telah kita salin di /opt. Sintaks perintah akan menjadi:

Sintaks perintah:

start-worker.sh spark:// nama host: port

Pada perintah di atas ubah hostname dan port. Jika Anda tidak tahu nama host Anda, cukup ketik- nama host di terminal. Di mana port default master berjalan adalah 7077, Anda dapat melihat pada tangkapan layar di atas.

Jadi, karena nama host kita adalah ubuntu, perintahnya akan seperti ini:

start-worker.sh spark://ubuntu:7077

Segarkan interface Web dan Anda akan melihat ID Pekerja dan jumlah memori yang dialokasikan untuknya:

Jika mau, Anda dapat mengubah memori/ram yang dialokasikan untuk pekerja. Untuk itu, Anda harus me-restart pekerja dengan jumlah RAM yang ingin Anda berikan itu.

stop-worker.sh start-worker.sh -m 212M spark://ubuntu:7077

Gunakan Spark Shell

Mereka yang ingin menggunakan Spark shell untuk memulai pemrograman dapat mengaksesnya dengan mengetik langsung:

percikan api

Untuk melihat opsi yang didukung, ketik- :help dan untuk keluar dari shell use – :quite

Untuk memulai dengan Python shell alih-alih Scala, gunakan:

kembang api

Perintah Mulai dan Berhenti Server

Jika Anda ingin memulai atau menghentikan instance master/pekerja, gunakan skrip yang sesuai:

stop-master.sh stop-worker.sh

Untuk berhenti sekaligus

stop-all.sh

Atau mulai sekaligus:

mulai-semua.sh

Mengakhiri Pikiran:

Dengan cara ini, kita dapat menginstal dan mulai menggunakan Apache Spark di Ubuntu Linux. Untuk mengetahui lebih banyak tentang Anda dapat merujuk ke dokumentasi resmi. Namun, dibandingkan dengan Hadoop, Spark masih relatif muda, jadi Anda harus memperhitungkan beberapa sisi kasar. Namun, itu telah membuktikan dirinya berkali-kali dalam praktik dan memungkinkan kasus useran baru di bidang data besar atau cepat melalui eksekusi cepat pekerjaan dan caching data. Dan akhirnya, ia menawarkan API seragam untuk alat yang seharusnya harus dioperasikan dan dioperasikan secara terpisah di lingkungan Hadoop.