Sebuah syarikat perkhidmatan kewangan menggunakan AI pemprosesan dokumen untuk mengekstrak data daripada invois. Dalam masa dua minggu, seorang pembekal mendapati bahawa menyematkan teks tersembunyi dalam imej invois boleh menyebabkan sistem mengekstrak jumlah yang salah. Tiada sesiapa yang menulis muatan SQL injection. Tiada sesiapa yang mengeksploitasi penimbal memori. Serangan itu berjaya dengan mengeksploitasi cara model itu sendiri memproses data imej.

Itulah cabaran utama keselamatan AI. Permukaan serangan bukan sahaja infrastruktur yang mengelilinginya, tetapi model itu sendiri, data latihan, prompt yang mengawal tingkah laku, dan output yang menyuap sistem hiliran. Keselamatan siber tradisional melindungi perisian. Keselamatan AI melindungi AI itu sendiri.

Mengapa Keselamatan AI Berbeza daripada Keselamatan Siber Tradisional

Keselamatan perisian tradisional melindungi daripada penyerang yang mengeksploitasi kod: limpahan penimbal, serangan suntikan, pengelakan pengesahan. Serangan ini berjaya kerana kod berkelakuan secara deterministik, dan penyerang yang menemui input yang mencetuskan laluan kod yang tidak dijangka boleh menyebabkan kerosakan yang boleh diramalkan.

Sistem AI memperkenalkan jenis kelemahan yang berbeza. Model dilatih pada data, dan proses latihan tersebut boleh dimanipulasi. Model bertindak balas terhadap input dengan cara yang boleh dipengaruhi oleh contoh adversarial yang direka dengan teliti yang kelihatan normal bagi manusia. Model yang memproses teks boleh menerima arahan yang disematkan dalam inputnya yang mengatasi tingkah laku yang dimaksudkan. Dan model itu sendiri, yang mewakili nilai komersial yang ketara, boleh dicuri atau direplikasi.

Tiada satu pun serangan ini memerlukan penemuan pepijat dalam kod. Mereka mengeksploitasi sifat cara machine learning berfungsi.

Ini tidak bermaksud keselamatan tradisional tidak relevan untuk sistem AI. Keselamatan infrastruktur, kawalan akses, dan pembangunan perisian yang selamat masih terpakai. Tetapi ia tidak mencukupi. Keselamatan AI menambah lapisan kebimbangan yang khusus untuk tingkah laku model, integriti latihan, dan manipulasi semasa inferens.

Kategori Ancaman Keselamatan AI Utama

Serangan adversarial memanipulasi input untuk menyebabkan model menghasilkan output yang salah. Dalam penglihatan komputer, ini bermaksud menambah hingar peringkat piksel yang dikira dengan teliti ke imej yang kelihatan normal bagi manusia tetapi menyebabkan model pengelasan mengembalikan label yang sepenuhnya salah dengan keyakinan tinggi. Dalam sistem teks, serangan adversarial mencipta input yang mengeksploitasi kelemahan khusus dalam cara model mewakili bahasa. Serangan ini penting untuk mana-mana sistem AI yang membuat keputusan berkonsekuensi berdasarkan inputnya: daripada pengesanan penipuan hingga pengsederhanaan kandungan atau pengimejan perubatan.

Keracunan data merosakkan proses latihan. Jika penyerang boleh mempengaruhi data yang digunakan untuk melatih model, mereka boleh mencipta "pintu belakang": corak khusus yang menyebabkan model berkelakuan tidak betul setiap kali ia muncul dalam pengeluaran, sementara berfungsi dengan normal sebaliknya. Model yang dilatih pada data yang dicalar dari web terdedah kepada sebarang kandungan yang boleh diletakkan di web. Serangan rantaian bekalan pada set data latihan adalah kebimbangan yang semakin meningkat, terutamanya bagi organisasi yang menggunakan data tersedia awam atau pembekal data pihak ketiga.

Prompt injection menyasarkan model bahasa besar dan sistem lain yang mengikut arahan bahasa semula jadi. Penyerang menyematkan arahan dalam kandungan yang akan diproses oleh AI, dan arahan tersematkan itu mengatasi tingkah laku sistem yang dimaksudkan. Bot khidmat pelanggan yang diarahkan untuk "ringkaskan dokumen ini" boleh menerima dokumen yang mengandungi arahan tersembunyi yang memberitahunya untuk mendedahkan system prompt, mengabaikan penapis kandungannya, atau mengekstrak maklumat. Apabila sistem AI mengambil alih lebih banyak proses kerja agentik dengan akses kepada alat dan pangkalan data, prompt injection menjadi ancaman keselamatan yang serius: arahan yang berjaya disuntik boleh menyebabkan ejen mengambil tindakan yang tidak pernah diniatkan oleh operatornya.

Kecurian dan pengekstrakan model menyasarkan model itu sendiri sebagai aset yang berharga. Melalui pertanyaan berulang, penyerang boleh merekonstruksi anggaran tingkah laku model proprietari, secara berkesan mencuri harta intelek yang tertanam dalam model tanpa pernah mengakses pemberat model. Organisasi yang telah melabur berjuta-juta dalam melatih atau menyesuaikan model menghadapi risiko kecurian IP yang nyata daripada musuh yang mempunyai sumber daya yang baik.

Penyongsangan model mengekstrak maklumat tentang data latihan. Dalam sesetengah kes, penyerang boleh membuat pertanyaan kepada model dengan cara yang mendedahkan butiran tentang apa yang dilatih, termasuk data sensitif yang berpotensi daripada individu yang maklumatnya ada dalam set latihan. Ini mewujudkan risiko privasi yang berbeza daripada pelanggaran data: maklumat sensitif tidak dicuri daripada pangkalan data, ia diekstrak daripada model.

Perbezaan Keselamatan AI dengan Keselamatan AI (Safety)

Istilah-istilah ini sering mengelirukan, tetapi ia menangani ancaman yang berbeza.

Keselamatan AI (safety) berkenaan sistem AI yang berkelakuan dengan cara yang tidak disengajakan disebabkan penjajaran yang salah, kes tepi, atau kegagalan keupayaan. Safety bertanya: apa yang berlaku apabila AI melakukan sesuatu yang salah tanpa niat adversarial? Contohnya termasuk sistem cadangan yang mengoptimumkan penglibatan dengan mengorbankan kesejahteraan pengguna, kegagalan keteguhan apabila model menghadapi input luar taburan, atau proses kerja agentik yang mencapai objektifnya dengan cara yang tidak dijangka oleh perekabentuknya.

Keselamatan AI berkenaan serangan yang disengajakan. Keselamatan bertanya: apa yang boleh dilakukan musuh untuk membuat AI berkelakuan dengan cara yang menguntungkan penyerang? Konsep teknikal yang mendasari yang sama, seperti input adversarial, kadang-kadang muncul dalam kedua-dua bidang. Tetapi penyelidikan safety menumpukan pada kegagalan tidak sengaja, manakala penyelidikan keselamatan menumpukan pada eksploitasi yang disengajakan.

Kedua-duanya penting. Sistem AI dalam pengeluaran memerlukan kejuruteraan safety untuk mengendalikan input yang tidak dijangka dengan baik dan kejuruteraan keselamatan untuk mengendalikan serangan yang disengajakan.

Keselamatan AI dalam Amalan Perusahaan

Bagi organisasi yang menggunakan AI, pertimbangan keselamatan diterjemahkan ke dalam amalan konkrit.

Pemodelan ancaman sebelum penggunaan. Sebelum model digunakan dalam pengeluaran, teliti permukaan serangan khusus yang didedahkannya. Siapa yang boleh menghantar input kepadanya? Tindakan apa yang boleh diambilnya? Apa yang akan diperoleh penyerang bermotivasi dengan memanipulasinya? Analisis ini menentukan kawalan keselamatan mana yang berbaloi untuk dilaburkan.

Pengesahan dan pembersihan input. Untuk sistem yang memproses kandungan yang disediakan oleh pengguna, laksanakan penapis pada input sebelum ia mencapai model. Untuk sistem berasaskan LLM, ini bermaksud mengesan corak prompt injection, walaupun tiada penapis yang lengkap terhadap penyerang yang bertekad. Untuk sistem pemprosesan dokumen, anggap setiap dokumen sebagai berpotensi adversarial.

Pertahanan prompt injection untuk sistem agentik. Ejen AI dengan akses alat memerlukan perhatian khusus. Kawalan senibina, seperti memisahkan ruang arahan daripada ruang kandungan, mengehadkan alat yang boleh diakses oleh ejen, dan memerlukan pengesahan manusia untuk tindakan sensitif, mengurangkan jejari letupan suntikan yang berjaya. Defense-in-depth ialah model pemikiran yang betul: tiada kawalan tunggal yang mencukupi.

Pemantauan output dan pengesanan anomali. Alat kebolehlihatan AI yang menjejaki apa yang dihasilkan model dalam pengeluaran boleh mengesan tingkah laku luar biasa yang mungkin menunjukkan serangan yang sedang berlaku. Corak output luar biasa, panggilan alat yang tidak dijangka dalam sistem agentik, atau hanyutan statistik dalam output adalah isyarat yang perlu dipantau.

Kawalan akses pada API model. Titik akhir model harus dilayan sebagai aset sensitif. Pengehadan kadar permintaan mengurangkan kemungkinan serangan pengekstrakan. Pengesahan memastikan hanya pelanggan yang diberi kuasa boleh membuat pertanyaan kepada model. Logging mencipta jejak audit untuk analisis forensik.

Keselamatan rantaian bekalan untuk data latihan. Organisasi yang melatih pada data luaran harus menggunakan penelitian yang sama terhadap asal usul data latihan yang mereka gunakan untuk kebergantungan perisian. Set data yang dikurasi dan disahkan adalah lebih selamat berbanding skrapan web yang besar dan tidak dibeza-bezakan. Apabila data pihak ketiga tidak dapat dielakkan, pengujian red-team berkala untuk tingkah laku pintu belakang adalah berbaloi dengan pelaburannya.

Dimensi Kawal Selia

Keselamatan AI semakin menjadi kebimbangan pematuhan, bukan hanya teknikal. EU AI Act memerlukan sistem AI berisiko tinggi untuk melaksanakan langkah keselamatan yang sesuai, termasuk perlindungan daripada serangan adversarial. NIST AI Risk Management Framework memasukkan keselamatan sebagai komponen teras tadbir urus AI yang bertanggungjawab. Organisasi dalam industri yang dikawal selia seperti perkhidmatan kewangan, penjagaan kesihatan, dan infrastruktur kritikal semakin dijangkakan untuk membuktikan bahawa sistem AI mereka selamat, bukan hanya berfungsi.

Tekanan kawal selia ini meningkatkan standard untuk dokumentasi keselamatan AI. Kad model AI dan jejak audit AI semakin perlu menangani cara model telah diuji keselamatannya, kelemahan yang diketahui, dan pengurangan yang dilaksanakan.

Membina Keupayaan Keselamatan AI

Bagi kebanyakan organisasi, keupayaan keselamatan AI dibina atas asas keselamatan sedia ada. Pasukan keselamatan sudah memahami pemodelan ancaman, senibina yang selamat, dan respons insiden. Yang mereka perlukan tambahan ialah pengetahuan tentang kategori ancaman khusus AI dan teknik yang digunakan untuk mengujinya.

Pengujian red-team AI ialah cara paling langsung untuk membangunkan kedua-dua pengetahuan dan pertahanan. Latihan pasukan merah terhadap sistem AI dalam pengeluaran mendedahkan kelemahan sebenar dalam konteks penggunaan sebenar, bukan senario ancaman yang abstrak. Organisasi yang menjalankan pengujian red-team AI secara berkala membangunkan kedua-dua pertahanan dan otot organisasi untuk mengekalkannya.

Alternatifnya, mengetahui tentang kelemahan keselamatan AI selepas insiden pengeluaran, adalah jauh lebih mahal.

Konsep AI Berkaitan

Keselamatan AI (Safety) - Melindungi AI daripada mod kegagalan tidak disengajakan
Pengujian Red-Team AI - Pengujian adversarial untuk mencari kelemahan keselamatan
Guardrail AI - Kawalan teknikal pada output model
Kebolehlihatan AI - Memantau tingkah laku model dalam pengeluaran
Tadbir Urus AI - Akauntabiliti organisasi untuk keselamatan AI
Proses Kerja Agentik - Sistem AI berisiko tinggi untuk pertimbangan keselamatan
Jejak Audit AI - Logging untuk tujuan forensik dan pematuhan

Sumber Luar

NIST AI Risk Management Framework - Rangka kerja kerajaan AS yang merangkumi keperluan keselamatan AI
OWASP Top 10 for LLM Applications - Senarai kanonikal kelemahan LLM komuniti keselamatan termasuk prompt injection
MITRE ATLAS - Landskap ancaman adversarial untuk sistem AI dengan kajian kes dunia nyata

FAQ

Soalan Lazim tentang Keselamatan AI

Apakah keselamatan AI?

Keselamatan AI ialah disiplin melindungi model machine learning dan pipeline AI daripada serangan yang disengajakan, termasuk input adversarial yang menyebabkan output salah, data latihan yang diracuni, serangan prompt injection pada model bahasa, dan kecurian model. Ia melanjutkan keselamatan siber tradisional untuk merangkumi permukaan serangan yang khusus untuk cara sistem AI berfungsi.

Bagaimana keselamatan AI berbeza daripada safety AI?

Safety AI menangani kegagalan tidak disengajakan: kes di mana sistem AI menghasilkan output yang berbahaya atau berkelakuan dengan cara yang tidak dimaksudkan tanpa campur tangan adversarial. Keselamatan AI menangani serangan yang disengajakan oleh musuh yang cuba mengeksploitasi AI untuk kepentingan mereka. Kedua-duanya penting, dan memerlukan pertahanan yang berbeza, walaupun ia bertindih di beberapa tempat.

Apakah prompt injection dan mengapa ia merupakan risiko yang serius?

Prompt injection menyematkan arahan berniat jahat dalam kandungan yang akan diproses oleh AI, menyebabkan AI mengikuti arahan tersebut bukannya pengaturcaraan yang dimaksudkan. Ia merupakan risiko yang serius kerana sistem AI semakin banyak mengambil tindakan di dunia nyata, seperti membuat pertanyaan pangkalan data, menghantar mesej, atau melaksanakan kod. Arahan yang berjaya disuntik boleh menyebabkan ejen AI mengambil tindakan yang tidak pernah dibenarkan oleh operatornya.

Apa yang perlu dilakukan organisasi terlebih dahulu untuk meningkatkan keselamatan AI?

Mulakan dengan pemodelan ancaman untuk setiap sistem AI dalam pengeluaran: kenal pasti siapa yang boleh menghantar input kepadanya, tindakan apa yang boleh diambilnya, dan apa yang diperoleh penyerang dengan memanipulasinya. Analisis ini mendedahkan serangan mana yang benar-benar relevan dengan sistem anda dan menumpukan pelaburan anda pada kawalan yang paling penting.

Victor Hoang

Co-Founder & CMO, Rework

AI Terms

Apakah Keselamatan AI? Melindungi Sistem AI daripada Serangan