Keamanan model AI kini tidak hanya soal data pengguna, tetapi juga soal “isi kepala” model itu sendiri. Tim keamanan Google mengungkap temuan tentang upaya penyerang yang mencoba menyalin kemampuan Google Gemini lewat teknik ekstraksi model, termasuk kampanye yang memanfaatkan lebih dari 100.000 perintah (prompt).
Dalam laporan keamanan tertanggal 13 Februari, Google Threat Intelligence Group (GTIG) memperingatkan bahwa model bahasa besar (LLM) bisa menjadi target serangan yang semakin serius. Selain risiko gangguan layanan, salah satu ancaman yang disorot adalah model extraction attack (MEA), sebuah pendekatan yang berfokus pada pengambilan ulang kemampuan model melalui interaksi berulang.
Skema yang banyak dibahas dalam konteks ini adalah distilasi pengetahuan. Secara sederhana, penyerang “mengajak ngobrol” model berkali-kali dengan pertanyaan beragam untuk memancing pola jawaban, gaya penalaran, dan respons yang konsisten. Dari kumpulan keluaran tersebut, mereka menyusun ulang gambaran bagaimana model bekerja, lalu berupaya melatih model lain agar meniru perilakunya.
GTIG menyebut cakupan pertanyaan dalam operasi yang mereka temukan sangat luas. Banyaknya variasi prompt dinilai menunjukkan tujuan yang spesifik: menemukan kembali kemampuan bernalar Gemini, bukan hanya menyalin jawabannya. Google tidak mengungkap identitas pelaku, namun memberi sinyal kemungkinan datang dari pihak yang ingin keuntungan kompetitif, seperti perusahaan swasta atau kelompok riset.
Menariknya, distilasi pengetahuan berbeda dari serangan siber klasik yang mengandalkan akses ilegal. Teknik ini bisa dilakukan lewat akses yang sah, misalnya dengan mengajukan pertanyaan melalui antarmuka yang memang tersedia untuk publik. Karena itulah, dari sisi permukaan, aktivitasnya terlihat “normal”, padahal intensitas dan polanya mengindikasikan niat mengekstrak kemampuan model.
Dalam praktik pembelajaran mesin, distilasi adalah teknik umum yang sering digunakan secara legal. Biasanya ada model “guru” yang sudah kuat dan model “murid” yang lebih kecil atau lebih hemat biaya. Model murid dilatih dengan meniru keluaran guru pada banyak contoh, sehingga bisa menjalankan tugas serupa dengan kebutuhan komputasi lebih ringan.
Masalah muncul ketika distilasi dilakukan tanpa izin untuk mencuri kekayaan intelektual. Dalam konteks LLM komersial, kemampuan internal seperti cara menyusun jawaban, struktur reasoning, dan “rasa bahasa” merupakan aset berharga yang dibangun dengan investasi besar. Jika ada pihak yang bisa meniru kemampuan itu hanya dengan membombardir prompt, biaya riset dan pengembangan dapat dipangkas drastis.
Google menilai serangan ekstraksi model tidak menimbulkan risiko langsung bagi pengguna akhir. Namun, ancaman ini sangat nyata bagi penyedia layanan dan pengembang model karena menyasar nilai ekonomi dan kepemilikan teknologi. Ekstraksi model dipandang sebagai pelanggaran ketentuan layanan dan bentuk pencurian IP yang dapat merusak persaingan sehat.
Laporan media juga menggambarkan konteks lebih besar: perusahaan teknologi menggelontorkan miliaran dolar untuk mengembangkan chatbot AI dan LLM, sehingga mekanisme internal model menjadi informasi proprietary yang sangat dilindungi. Jika teknik distilasi “liar” makin marak, industri akan menghadapi perlombaan baru antara keterbukaan akses dan pencegahan penyalinan.
GTIG memperkirakan aktivitas semacam ini berpotensi meningkat dalam waktu dekat. Salah satu alasannya, upaya distilasi bisa disesuaikan untuk banyak misi, termasuk bahasa non-Inggris. Ini membuat serangan bukan hanya soal meniru satu fitur, tetapi memetakan kemampuan lintas bahasa dan lintas tugas—sesuatu yang sangat menggoda bagi pihak yang ingin mengejar ketertinggalan.
Ke depan, tantangan utama bagi penyedia AI adalah mencari titik seimbang: layanan tetap mudah diakses, namun tidak memberi celah bagi penyerang untuk menguras “pengetahuan” model lewat interaksi skala besar. Upaya mitigasi dapat melibatkan pembatasan perilaku anomali, pemantauan pola prompt massal, hingga kebijakan yang lebih ketat terhadap penggunaan otomatis.






