Cara Cepat Melakukan Segmentasi Objek di Gambar dengan FastSAM

ARTIFICIAL INTELLIGENCE

Seeed Studio AIoT Marketing and Partnership Diterjemahkan oleh : Digiware

7/9/20253 min baca

FastSAM lahir untuk mengatasi tantangan kebutuhan komputasi besar yang dibutuhkan oleh model Transformer (ViT) yang berat. Dengan memanfaatkan kekuatan model CNN yang ringan, FastSAM menjadi metode yang lebih efisien dibandingkan SAM. FastSAM mampu melakukan segmentasi terhadap objek apa pun dalam sebuah gambar secara real-time, lebih cepat, dan tetap akurat, dengan bantuan prompt interaktif dari pengguna.

Dibandingkan dengan metode pelabelan dan pengumpulan dataset tradisional yang memakan waktu dan sumber daya besar, SAM (Segment Anything Model) menonjol sebagai model segmentasi gambar otomatis yang mampu memotong hampir objek apa saja dari gambar. Dengan dilatih menggunakan 11 juta gambar dan 1,1 miliar mask segmentasi, SAM dapat menghasilkan atau mengambil mask untuk objek tertentu berdasarkan titik atau perintah teks.

FastSAM melangkah lebih jauh. Ia mengubah tugas menjadi segmentasi instance (instance segmentation) dan hanya menggunakan 1/50 dari dataset SA-1B milik Meta AI. Hasilnya, FastSAM bekerja 50 kali lebih cepat dibanding SAM dengan akurasi yang sebanding.

Mengenal SAM dan Inovasi Selanjutnya

Dua Tahap Proses FastSAM

FastSAM terdiri dari dua tahap utama:

All-instance Segmentation (AIS)
Prompt-guided Selection (PGS)

Tahap pertama adalah metode dasar untuk menyegmentasi semua objek atau area dalam sebuah gambar. Tahap kedua adalah pemrosesan lanjutan yang berorientasi pada tugas, yaitu untuk mengidentifikasi objek tertentu yang dimaksud.

All-instance Segmentation (AIS)

Pada tahap ini, digunakan YOLOv8-seg untuk menghasilkan mask segmentasi dari semua instance dalam gambar.

YOLOv8 memperbarui struktur modul sebelumnya (YOLOv5) dengan mengganti modul C3 menjadi C2f. Bagian Head juga diperbarui dengan struktur decoupled (dipisah antara klasifikasi dan deteksi), serta beralih dari sistem Anchor-Based ke Anchor-Free.

FastSAM mengadopsi prinsip YOLACT dalam segmentasi instance. Dimulai dari ekstraksi fitur menggunakan backbone dan Feature Pyramid Network (FPN), lalu hasilnya dibagi menjadi cabang deteksi dan segmentasi.

Prompt-guided Selection (PGS)

Tahap ini mengekstraksi area yang sesuai dengan prompt pengguna. Ada tiga metode yang digunakan:

a. Point Prompt (Titik)

Menggunakan titik latar depan/latar belakang sebagai input.
Titik latar belakang membantu menghindari kesalahan ketika satu titik latar depan muncul di banyak mask.
Beberapa mask dalam satu wilayah bisa digabungkan menjadi satu mask untuk menandai objek secara utuh.

b. Box Prompt (Kotak)

Menggunakan perhitungan Intersection over Union (IoU) antara kotak yang dipilih dan kotak pembatas dari hasil AIS.
Mask dengan skor IoU tertinggi dianggap sebagai objek yang dicari.

c. Text Prompt (Teks)

Menggunakan model CLIP untuk mengonversi teks menjadi embedding fitur.
Mask yang paling mirip dengan embedding teks akan dipilih.

Penerapan FastSAM di Dunia Nyata

Deteksi Anomali

Digunakan dalam berbagai skenario industri untuk mendeteksi cacat produksi, perawatan prediktif pada perangkat IoT, pemantauan tanda vital, serta deteksi perilaku abnormal dalam analisis video. FastSAM dapat menandai bagian cacat secara presisi dengan bantuan titik atau kotak, walaupun akurasinya sedikit di bawah SAM dalam mode “mask everything”.

Segmentasi Objek Menonjol (Salient Object Segmentation)

Bertujuan mengidentifikasi objek paling menonjol dalam gambar/video. Cocok untuk studi psikologi, pelacakan mata, pengayaan interaksi di AR, identifikasi struktur anatomi penting dalam diagnosis medis, serta ekstraksi fitur biologis untuk keamanan. FastSAM bekerja hampir sebaik SAM, hanya kehilangan detail kecil di tepi objek. Namun, baik FastSAM maupun SAM tidak dapat memilih beberapa objek sekaligus dengan satu kotak prompt.

Ekstraksi Bangunan

Berguna dalam perencanaan kota, sistem navigasi, optimalisasi jaringan, transportasi umum, dan manajemen lahan atau tanaman.
FastSAM unggul dalam mengidentifikasi satu bangunan dari yang lain, walau sedikit kesulitan dengan area bayangan. Tapi jika menggunakan point prompt di area bayangan, FastSAM tetap mampu menggabungkan mask yang benar.

Penerapan FastSAM di Dunia Nyata

Kunjungi dokumentasi FastSAM dari Ultralytics untuk mengintegrasikan model ke dalam aplikasi Python Anda. Anda bisa memilih antara repo resmi FastSAM di GitHub atau API Python dari Ultralytics.

Kunjungi dokumentasi FastSAM dari Ultralytics untuk mengintegrasikan model ke dalam aplikasi Python Anda. Anda bisa memilih antara repo resmi FastSAM di GitHub atau API Python dari Ultralytics.

Tutorial Singkat oleh AE Youjiang: Ekstraksi Bangunan dari Video