Bahasa Melayu

RAG Assistant: Pattern Retrieval-Augmented Generation

Rajah menunjukkan pattern RAG Assistant: soalan mengalir melalui pengambilan semula ke penjanaan dengan jawapan yang dipetik

Setiap organisasi mempunyai pengetahuan yang terperangkap dalam dokumen yang tidak dibaca sesiapa. Buku panduan polisi yang dikemas kini tiga tahun lalu. Wiki onboarding yang ketinggalan dua versi produk utama. Nota penyelesaian sokongan dari 2022 yang akan menjawab 30% tiket hari ini, jika sesiapa sahaja dapat menemuinya.

Pengetahuan itu wujud. Ia hanya tidak boleh diakses dengan cara orang sebenarnya bertanya soalan.

Carian tradisional membantu jika Anda tahu istilah carian yang betul dan sanggup membaca melalui lima dokumen untuk mensintesis jawapan. Tetapi kebanyakan orang yang bertanya "berapa banyak cuti bersalin yang saya dapat?" tidak mahu membaca buku panduan HR 40 halaman. Mereka mahukan jawapan. Sekarang.

Pattern RAG Assistant mengubah pangkalan pengetahuan sedia ada Anda menjadi mesin menjawab. Ia adalah AI pattern yang paling meluas digunakan dalam enterprise, dan dengan sebab yang baik: ia menyelesaikan masalah sebenar yang universal dengan formula keupayaan yang difahami dengan baik, berisiko agak rendah, dan benar-benar berguna dari hari pertama. Teknik ini diperkenalkan dalam kertas 2020 oleh Lewis et al. dan sejak itu menjadi pendekatan dominan untuk mendasarkan keluaran model bahasa dalam pangkalan pengetahuan yang khusus dan terkawal. RAG adalah titik permulaan yang paling selamat untuk kebanyakan organisasi.

Formula

Ingest (soalan) → Analyze (cari dokumen relevan) → Generate (jawapan dengan petikan)

Tiga keupayaan. Setiap langkah layak mendapat penjelasan dalam bahasa biasa.

Ingest: menukar soalan kepada pertanyaan pengambilan semula. Apabila pengguna menaip soalan, sistem tidak hanya mencari kata kunci yang sepadan. Ia menukar soalan kepada vektor, representasi matematik maknanya, menggunakan jenis model yang sama yang menggerakkan carian semantik moden. Pertanyaan dan dokumen dikodkan sebagai vektor, dan pengambilan semula mencari dokumen yang paling serupa dengan pertanyaan. "Berapa hari cuti yang saya dapat?" dan "Apakah polisi PTO untuk pekerja kanan?" adalah rentetan yang berbeza tetapi serupa dari segi makna. Representasi vektor menangkap persamaan itu. Langkah Ingest ini membolehkan RAG mencari kandungan yang relevan walaupun perkataan yang tepat tidak sepadan.

Analyze: mengambil semula bahagian paling relevan daripada pangkalan pengetahuan Anda. Dokumen sumber Anda tidak dicari sebagai fail penuh. Mereka telah diproses terlebih dahulu: dibahagikan kepada bahagian kecil (biasanya beberapa perenggan setiap satu), ditukar kepada vektor masing-masing, dan disimpan dalam pangkalan data vektor. Apabila pertanyaan masuk, sistem membandingkan vektor pertanyaan terhadap semua vektor bahagian dan mengembalikan keputusan teratas mengikut skor kesamaan. Inilah langkah pengambilan semula. Kualiti langkah ini menentukan kualiti jawapan. Jika pengambil semula mengembalikan bahagian yang salah (relevan rendah, kandungan lapuk, bahagian yang terlalu kecil atau terlalu besar), langkah penjanaan bekerja dengan bahan yang buruk.

Generate: mengarang jawapan daripada konteks yang diambil semula. Model bahasa menerima dua input: soalan asal pengguna dan bahagian yang diambil semula. Ia diarahkan untuk menjawab soalan menggunakan hanya konteks yang disediakan, dan untuk memetik dokumen sumber bagi setiap tuntutan yang dibuat. Keperluan petikan adalah penting: ia mendasarkan jawapan dan memberi pengguna cara untuk mengesahkan. Sistem RAG yang baik memaparkan sumber di samping jawapan ("Menurut Buku Panduan Pekerja, Bahagian 4..."). Langkah Generate adalah di mana jawapan menjadi boleh dibaca, tetapi ketepatan datang daripada langkah Analyze (pengambilan semula) yang menyuapnya.

Key Facts: Penggunaan dan Impak RAG

  • RAG adalah AI pattern enterprise yang paling biasa digunakan, digunakan dalam 63% projek AI pengurusan pengetahuan enterprise pada 2025 (Gartner Enterprise AI Survey, 2025)
  • Organisasi yang menggunakan RAG Assistants untuk carian pengetahuan dalaman melaporkan purata pengurangan 28% dalam jumlah tiket sokongan dalam 90 hari selepas pelancaran (Forrester Knowledge Management AI Study, 2025)
  • Pasukan sokongan yang menggunakan copilot agen berkuasa RAG melihat pengurangan 20-30% dalam masa pengendalian purata pada kategori tiket yang diliputi pangkalan pengetahuan (HubSpot Service Benchmark, 2024)

Masalah perniagaan yang diselesaikannya

Carian tradisional mengembalikan dokumen. RAG mengembalikan jawapan.

Perbezaan itu lebih penting daripada yang terdengar. Apabila pekerja mencari wiki dalaman Anda untuk "polisi cuti bersalin," carian tradisional mengembalikan tiga dokumen yang mungkin mengandungi jawapan. Mereka membuka yang pertama, mengimbas untuk mencari bahagian yang relevan, membacanya, menentukan sama ada ia terpakai kepada situasi mereka, dan menyemak yang lain untuk memastikan mereka tidak terlepas butiran. Itu adalah 10-15 minit untuk soalan yang sepatutnya mengambil masa 30 saat.

RAG mengembalikan: "Pengarah di syarikat ini menerima 16 minggu cuti bersalin berbayar, dengan pilihan untuk memanjangkan 4 minggu cuti tanpa bayar. Polisi ini terpakai dari hari pertama pekerjaan tanpa keperluan tempoh perkhidmatan. [Sumber: Manual Polisi HR, Bahagian 4.2, dikemas kini Mac 2026]." Tiga puluh saat. Sumber dipetik. Pengguna selesai.

Dinamik yang sama berlaku dalam setiap fungsi di mana pengetahuan didokumentasikan tetapi tidak mudah diakses:

  • Pasukan sokongan menghabiskan masa mencari nota penyelesaian lalu yang akan memberitahu mereka dengan tepat cara mengendalikan tiket
  • Wakil jualan mencari dokumentasi produk untuk menjawab soalan prospek sebelum panggilan
  • Jurutera baru mencari wiki kejuruteraan untuk memahami prosedur penempatan
  • Pasukan kewangan mencari arkib kontrak vendor untuk mencari klausa indemniti

Semua ini adalah masalah yang sama. RAG adalah penyelesaian yang sama, diterapkan kepada pangkalan pengetahuan yang berbeza.

Empat contoh sebenar

Chatbot polisi HR

Sebuah syarikat 500 orang menggunakan RAG Assistant di atas buku panduan pekerja, dokumentasi faedah, polisi PTO, dan polisi cuti bersalin mereka.

Yang ditelan ke dalam pangkalan pengetahuan: buku panduan HR yang lengkap (42 halaman), panduan enrolmen faedah dari tahun pelan semasa, polisi cuti syarikat (bersalin, perubatan, berkabung), senarai semak onboarding, dan 150 soalan HR yang paling kerap ditanya dari dua tahun sokongan tiket sebelumnya.

Cara pengambilan semula berfungsi: apabila pekerja bertanya "bolehkah saya menggunakan FSA saya untuk bil gigi pasangan saya?", sistem mengambil semula bahagian dokumen polisi FSA, FAQ faedah, dan tiket sokongan lalu yang relevan. Bahagian yang diambil semula mengandungi jawapan (ya, pasangan adalah tanggungan yang layak di bawah FSA syarikat).

Rupa jawapan: "Ya. FSA Anda menanggung perbelanjaan pergigian bagi tanggungan yang layak, termasuk pasangan atau rakan kongsi domestik. Perkhidmatan yang ditanggung termasuk pembersihan, tampalan, mahkota, dan orto. Untuk pembayaran balik, hantar EOB daripada insurans pasangan Anda melalui portal faedah. [Sumber: Panduan Faedah FSA 2026, halaman 8]."

Pasukan HR tidak lagi menerima 40 soalan FSA yang sama setiap musim pendaftaran terbuka. Chatbot mengendalikannya. Pasukan HR menyemak pertanyaan setiap minggu untuk mengenal pasti soalan yang chatbot kendalikan dengan kurang baik, dan mengemas kini pangkalan pengetahuan apabila polisi berubah.

Copilot agen sokongan pelanggan

Sebuah syarikat SaaS menggunakan RAG Assistant untuk agen sokongan, bukan untuk pelanggan akhir. Agen menyimpan tetingkap sembang terbuka di samping tiket sokongan mereka dan menanyakannya semasa bekerja.

Yang ditelan ke dalam pangkalan pengetahuan: dokumentasi produk, 30,000 tiket sokongan yang diselesaikan (soalan, penyelesaian, dan penilaian "penyelesaian baik" atau "penyelesaian buruk"), pepijat yang diketahui dan penyelesaian sementara, dan prosedur eskalasi.

Cara pengambilan semula berfungsi: pelanggan melaporkan "saya tidak dapat menyambungkan integrasi Salesforce saya." Agen menaip itu ke dalam RAG Assistant. Pengambilan semula mengemukakan tiga tiket yang diselesaikan paling relevan dengan simptom serupa (isu masa tamat token pengesahan, luput token OAuth, ketidaksepadanan versi API tertentu), ditambah bahagian dokumentasi yang relevan tentang penyelesaian masalah integrasi Salesforce.

Rupa jawapan: "Tiga kes serupa diselesaikan dengan cara ini: (1) Isu pemuat semula token OAuth, diperbaiki dengan mencabut dan memberi semula kebenaran kepada aplikasi yang disambungkan Salesforce (62 kes serupa). (2) Ketidaksepadanan versi API, diperbaiki dengan mengemas kini integrasi untuk menggunakan API v52 (28 kes serupa). (3) Firewall menyekat URL panggil balik Salesforce, diperbaiki dengan menambahkan URL ke dalam senarai putih tetapan rangkaian (12 kes). [Sumber: Tiket yang diselesaikan #3842, #2917, #1205]."

Agen melakukan triage berdasarkan corak yang sesuai dengan penerangan pelanggan, menanya soalan penjelasan, dan menyelesaikan tiket dengan lebih cepat. Masa pengendalian purata turun 20-30% pada jenis tiket yang diliputi pangkalan pengetahuan. Kadar penyelesaian kenalan pertama bertambah baik kerana agen mempunyai corak penyelesaian di hadapan mereka, bukan sekadar antara muka carian.

Pembantu wakil jualan untuk soalan produk

Sebuah syarikat perisian 200 orang memberi pasukan jualan 30 orang mereka RAG Assistant yang dimuatkan dengan dokumentasi produk, nota keluaran ciri, dokumentasi keselamatan, sijil pematuhan, dan jawapan RFP lalu.

Yang ditelan: tapak dokumentasi produk (dieksport sebagai teks berstruktur), 18 bulan respons RFP dengan hasil menang/kalah, dokumentasi keselamatan dan pematuhan (laporan SOC 2, lampiran GDPR, FAQ kediaman data), dan gambaran keseluruhan seni bina teknikal.

Cara pengambilan semula berfungsi: sebelum panggilan dengan prospek perkhidmatan kewangan, wakil bertanya "pilihan kediaman data apa yang kami tawarkan untuk pelanggan EU?" Pengambilan semula mengemukakan bahagian relevan lampiran GDPR, FAQ kediaman data, dan petikan daripada dua respons RFP lalu kepada akaun perkhidmatan kewangan yang merangkumi soalan ini.

Rupa jawapan: "Pelanggan EU boleh memilih untuk semua data disimpan secara eksklusif di EU (Frankfurt, AWS eu-central-1). Data tidak pernah meninggalkan infrastruktur EU kecuali pelanggan secara eksplisit membolehkan replikasi rentas kawasan. Produk ini mematuhi GDPR dan kami menyediakan DPA standard. Dua kontrak enterprise untuk pelanggan perkhidmatan kewangan EU (BankX, FinanceY) menentukan persediaan kediaman data ini. [Sumber: Lampiran GDPR v3, FAQ Kediaman Data, Respons RFP #24 dan #31]."

Wakil masuk ke panggilan sambil mengetahui jawapan. Tiada perburuan penyelidikan pra-panggilan. Tiada "biar saya semak dengan pasukan teknikal kami dan akan kembali kepada Anda" untuk soalan yang sepatutnya mempunyai jawapan segera.

Wiki kejuruteraan untuk onboarding pekerja baru

Pasukan kejuruteraan yang berkembang pesat menggunakan RAG Assistant pada wiki dalaman mereka: prosedur penempatan, keputusan seni bina, standard semakan kod, runbook insiden, dan jawapan kepada 200 soalan yang dikumpulkan dari 12 bulan terakhir mesej Slack ke saluran #engineering.

Yang ditelan: wiki kejuruteraan yang lengkap, rekod keputusan seni bina (ADR) dari dua tahun lalu, runbook penempatan, post-mortem insiden (yang telah dibersihkan), dan katalog soalan Slack.

Cara pengambilan semula berfungsi: jurutera baru pada hari ketiga bertanya "bagaimana saya menggunakan hotfix ke pengeluaran?" Pengambilan semula mengemukakan runbook penempatan, ADR terkini tentang proses keluaran, dan dua post-mortem insiden lalu di mana prosedur penempatan adalah relevan.

Rupa jawapan: "Untuk hotfix ke pengeluaran: (1) Cipta cawangan dari main dengan awalan hotfix/ (2) Buat pembetulan dan buka PR dengan sekurang-kurangnya satu semakan jurutera kanan (3) Selepas cantum, pencetuskan secara manual saluran paip penempatan pengeluaran dalam Jenkins (bukan auto-deploy CI standard) (4) Pantau penempatan dalam Datadog selama 30 minit selepas penempatan (5) Hantar post dalam #engineering dengan penerangan hotfix dan tiket Jira. Nota: proses hotfix memintas pintu pementasan biasa. Gunakan hanya untuk isu keterukan-1. [Sumber: Runbook Penempatan v4, ADR-024]."

Jurutera baru berhenti mencipta bunyi bising dalam saluran #engineering untuk soalan yang dijawab oleh wiki. Jurutera kanan berhenti diganggu daripada kerja mendalam untuk menjawab soalan onboarding. RAG Assistant tidak menggantikan mentorship; ia mengendalikan carian fakta supaya masa mentorship pergi kepada pertimbangan dan kerja pembinaan konteks.

Peraturan Pengambilan-Sebelum-Penjanaan

Prinsip teras RAG adalah bahawa penjanaan tanpa pengambilan semula daripada sumber yang dipercayai dan terbatas menghasilkan halusinasi, dan pengambilan semula tanpa petikan menghalang pengesahan. Setiap sistem RAG pengeluaran mesti melaksanakan kedua-dua langkah: pertama ambil semula kandungan paling relevan daripada pangkalan pengetahuan yang dikurasi, kemudian jana jawapan yang memetik bahagian sumber khusus yang digunakan. Melangkau pengambilan semula mengubah RAG menjadi model bahasa tujuan umum tanpa asas. Melangkau petikan mengubah RAG menjadi kotak hitam yang tidak dapat disahkan oleh pengguna. Kedua-dua bahagian diperlukan agar pattern dapat memberikan ketepatan dan kebolehpercayaan yang membenarkan penggunaannya berbanding carian tradisional.

Apabila RAG berfungsi dengan baik

RAG berprestasi terbaik dalam empat keadaan.

Pangkalan pengetahuan adalah segar dan terpelihara dengan baik. Jika dokumen sumber adalah lapuk, pengambilan semula mengembalikan kandungan lapuk dan jawapan yang dijanakan adalah salah dengan yakin. Sistem RAG memerlukan proses penyelenggaraan kandungan, bukan hanya persediaan sekali sahaja.

Soalan adalah khusus. "Apakah polisi cuti bersalin kami?" adalah soalan RAG yang baik. "Apa yang perlu saya lakukan tentang keseimbangan kerja-kehidupan?" tidak. Soalan yang kabur menghasilkan bahagian yang diambil semula yang kabur, dan model menjana jawapan yang kabur atau memfabrikasi butiran.

Atribusi sumber penting kepada pengguna. Dokumentasi undang-undang, pematuhan, HR, dan teknikal adalah kes penggunaan bernilai petikan tinggi. Pengguna dalam domain ini mahu tahu dari mana jawapan datang supaya mereka boleh mengesahkan atau mengeskalasinya dengan sewajarnya. Ciri petikan RAG adalah ciri yang bernilai di sini, bukan sekadar pilihan.

Pengetahuan adalah terbatas. RAG berfungsi terbaik apabila pangkalan pengetahuan mempunyai skop yang jelas. "Semua polisi HR" adalah skop terbatas. "Semua yang pernah ditulis oleh syarikat" tidak. Pangkalan pengetahuan yang tidak terbatas menghasilkan pengambilan semula yang bising: keputusan teratas untuk soalan tertentu mungkin dilimpahi oleh kandungan yang berkaitan secara tangensial daripada korpus yang luas.

Mod kegagalan

Mod kegagalan Punca Cara mengesan Cara membaiki
Petikan yang dihalusinasikan Model menjana jawapan yang yakin yang tidak ditemui dalam bahagian yang diambil semula; memetik sumber yang sebenarnya tidak mengandungi tuntutan Periksa sampel jawapan terhadap sumber yang dipetik setiap minggu Kuatkuasakan asas petikan: arahkan model untuk hanya memetik kandungan yang dipetik secara langsung; gunakan ambang keyakinan pengambilan semula
Pangkalan pengetahuan yang lapuk Dokumen sumber tidak dikemas kini; pengambilan semula mengembalikan polisi atau dokumentasi yang lapuk Cap masa setiap bahagian; audit hasil pengambilan semula untuk usia dokumen Tambah proses luput kandungan; minta pemilik dokumen menyemak setiap suku tahun; paparkan tarikh dokumen dalam UI jawapan
Pengambilan semula yang buruk (bahagian tidak relevan) Vektor pertanyaan tidak sepadan dengan vektor kandungan relevan; pemotongan dokumen terlalu kasar atau terlalu halus Pantau maklum balas pengguna ("adakah ini berguna?"); audit jawapan yang dinilai rendah untuk kualiti pengambilan semula Laraskan saiz bahagian; tambah penapis metadata (jabatan, jenis kandungan, julat tarikh); pertimbangkan pengindeksan semula dengan strategi pemotongan yang lebih baik
Soalan yang samar-samar Soalan mempunyai pelbagai tafsiran yang sah; pengambilan semula mengembalikan bahagian untuk beberapa tafsiran; model menjana jawapan yang luas Jejak soalan dengan penilaian kebermanfaatan rendah; semak secara manual 20 pertanyaan paling tidak berguna Tambah langkah penjelasan untuk pengambilan semula berkeyakinan rendah; tingkatkan pengendalian pertanyaan dengan penulisan semula soalan
Jurang pangkalan pengetahuan Pengguna bertanya tentang topik yang tidak ada dalam pangkalan pengetahuan; model sama ada berkata "saya tidak tahu" atau menghalusinasikan jawapan Pantau respons "saya tidak mempunyai maklumat itu"; audit topik soalan yang tidak dijawab Kenal pasti topik jurang teratas setiap bulan; tambah dokumentasi yang hilang ke pangkalan pengetahuan

Mod kegagalan paling berbahaya adalah petikan yang dihalusinasikan, kerana ia kelihatan seperti kejayaan. Pengguna mendapat jawapan yang yakin dan berformat baik dengan petikan sumber. Mereka mungkin bertindak atasnya tanpa mengesahkan. Audit pemeriksaan sampel adalah satu-satunya cara yang boleh dipercayai untuk menangkap ini secara sistematik.

Bila memilih RAG berbanding alternatif

RAG berbanding Generative Research: RAG mengambil semula daripada pangkalan pengetahuan tetap dan dikurasi yang Anda kawal. Generative Research mensintesis daripada pelbagai sumber luaran (kandungan web, pangkalan data, sumber langsung yang tidak Anda miliki). Gunakan RAG apabila jawapan wujud dalam dokumentasi dalaman Anda. Gunakan Generative Research apabila jawapan memerlukan sintesis maklumat luaran semasa (berita pesaing, data pasaran, perubahan kawal selia).

RAG berbanding Workflow Copilot: RAG adalah pattern soal jawab. Pengguna bertanya, sistem menjawab. Workflow Copilot adalah pembantu yang peka konteks yang membantu pengguna mengambil tindakan: carang e-mel ini, cadangkan langkah seterusnya, kemas kini rekod ini. Jika pengguna Anda memerlukan jawapan, gunakan RAG. Jika mereka perlu menghasilkan sesuatu atau mengambil tindakan, pertimbangkan Workflow Copilot. Kedua-dua patterns sering bergabung: wakil jualan bertanya soalan produk kepada RAG (RAG), kemudian meminta copilot mengarang respons kepada prospek menggunakan jawapan itu (Workflow Copilot).

RAG berbanding Document Review: RAG menjawab soalan tentang dokumen. Document Review menganalisis dokumen tertentu untuk pematuhan, risiko, atau klausa yang hilang terhadap standard. Gunakan RAG apabila manusia mempunyai soalan dan mahukan jawapan. Gunakan Document Review apabila Anda mempunyai dokumen dan mahukan penilaian AI tentang kualiti atau status pematuhannya.

RAG berbanding sekadar meningkatkan carian: Jika masalah sebenar Anda adalah bahawa orang tidak dapat mencari dokumen, carian yang lebih baik (penandaan metadata, penambahbaikan indeks teks penuh, navigasi yang lebih baik) mungkin adalah pembetulan yang betul. RAG adalah jawapan yang betul apabila mencari dokumen tidak mencukupi, apabila Anda memerlukan AI untuk mensintesis jawapan daripada pelbagai sumber menjadi satu respons. Jika pengguna Anda berpuas hati mencari dokumen dan membacanya sendiri, Anda tidak memerlukan RAG.

Isyarat ROI

ROI untuk RAG datang daripada tiga perubahan yang boleh diukur dalam tingkah laku dan hasil.

RAG Assistants dengan pangkalan pengetahuan yang terpelihara dengan baik dan kualiti pengambilan semula yang kukuh mencapai kadar ketepatan jawapan 88-94% pada soalan polisi dan dokumentasi, menurut penanda aras dalaman daripada penempatan enterprise di syarikat dengan 200-1,000 pekerja (Rework Analysis, 2026). Di bawah ketepatan 80%, risiko pematuhan bertindak atas jawapan yang salah mula melebihi penjimatan masa daripada carian yang lebih pantas.

Kadar defleksi tiket adalah isyarat yang paling jelas untuk penempatan RAG yang menghadap pelanggan atau pekerja. Jejak berapa peratus soalan yang akan menjadi tiket sokongan atau permintaan HR yang dikendalikan oleh RAG Assistant tanpa campur tangan manusia. Chatbot polisi HR yang dilaksanakan dengan baik biasanya membelokkan 35-55% soalan polisi rutin dalam 90 hari selepas pelancaran. Copilot sokongan yang membantu agen menyelesaikan dengan lebih cepat tidak membelokkan tiket, tetapi ia mengurangkan masa pengendalian purata sebanyak 20-30% pada topik yang diliputi.

Masa-untuk-jawapan untuk carian pengetahuan dalaman. Ukur berapa lama masa yang diambil oleh pekerja, wakil, atau jurutera untuk mendapatkan jawapan fakta yang diperlukan. Tanpa RAG, ini adalah proses carian-dan-baca yang mengambil masa 10-20 minit untuk soalan yang tidak jelas. Dengan RAG, ia adalah 30-60 saat. Untuk pasukan 50 orang yang masing-masing melakukan 3-5 carian pengetahuan seminggu, itu adalah 5-8 jam seminggu setiap 10 orang, atau 25-40 orang-jam seminggu merentasi pasukan, dipulihkan untuk kerja produktif.

Masa rampai onboarding untuk pangkalan pengetahuan kejuruteraan atau jualan. Jejak berapa lama masa yang diambil pekerja baru untuk mencapai penanda aras produktiviti. Pasukan yang menggunakan RAG untuk onboarding biasanya melihat pengurangan 15-25% dalam masa rampai kerana pekerja baru menghabiskan lebih sedikit masa memburu maklumat prosedural dan lebih banyak masa pada kerja pertimbangan dan pembinaan konteks.

Kesediaan data untuk RAG

Sebelum menggunakan RAG Assistant, semak tiga perkara. Prasyarat kesediaan data adalah sebab paling biasa projek RAG berprestasi rendah.

Dokumen sumber Anda diindeks dan dipotong. Folder PDF mentah pada pemacu kongsi bukan pangkalan pengetahuan. Dokumen perlu diproses: ditukar kepada teks bersih, dibahagikan kepada bahagian dengan saiz yang konsisten (250-500 token berfungsi dengan baik untuk kebanyakan kandungan polisi dan dokumentasi), dan disimpan dalam pangkalan data vektor dengan sumber, tarikh, dan metadata setiap bahagian yang dilampirkan. Ini adalah kos persediaan sekali sahaja dengan penyelenggaraan berterusan.

Pangkalan pengetahuan Anda mempunyai pemilik. Sistem RAG merosot apabila dokumen menua. Seseorang perlu memiliki pangkalan pengetahuan: menyemak dokumen untuk ketepatan, mengemas kini apabila polisi berubah, menambah kandungan baru apabila jurang pengetahuan dikenal pasti. Tanpa pemilik, sistem RAG secara beransur-ansur menjadi mesin halusinasi kerana pengambilan semula mengembalikan kandungan lapuk dan model menjana jawapan yang salah dengan yakin.

Strategi metadata Anda menyokong penapisan yang Anda perlukan. Sistem RAG tanpa penapisan metadata mengembalikan keputusan dari seluruh pangkalan pengetahuan untuk setiap pertanyaan. Itu boleh diterima untuk pangkalan pengetahuan yang kecil. Untuk yang besar (100+ dokumen, pelbagai jabatan, kandungan merentasi beberapa tahun), Anda mahu menapis pengambilan semula mengikut jabatan, jenis kandungan, julat tarikh, atau audiens. Reka bentuk skema metadata Anda sebelum pengindeksan: jabatan (HR, Undang-undang, Produk), jenis kandungan (polisi, runbook, FAQ, kontrak), tarikh berkuat kuasa, audiens (semua pekerja, pengurus, pasukan tertentu).

Rework Analysis: Kegagalan RAG yang paling biasa bukan kegagalan teknikal. Ia adalah kegagalan pemilikan kandungan. Organisasi menggunakan RAG, ia berfungsi dengan baik selama 60 hari, dan kemudian pangkalan pengetahuan menyimpang. Polisi berubah, buku panduan tidak dikemas kini, dan RAG Assistant mula menjawab dengan yakin berdasarkan peraturan tahun lalu. Pengguna mempercayai jawapan itu kerana ia kelihatan berwibawa. Kerosakan daripada RAG yang lapuk lebih sukar untuk dikesan berbanding sistem yang hanya berkata "saya tidak tahu." Setiap penempatan RAG memerlukan pemilik kandungan yang dinamakan, kadang semakan dokumen, dan ambang usia yang menandakan dokumen untuk semakan semula. Teknologi adalah bahagian yang mudah. Disiplin penyelenggaraan kandungan adalah yang memisahkan penempatan RAG yang masih dipercayai 18 bulan kemudian daripada yang dimatikan selepas jawapan yang salah pertama yang mendapat perhatian ramai.

Soalan Lazim

Apakah RAG Assistant?

RAG (Retrieval-Augmented Generation) Assistant ialah AI pattern yang menjawab soalan dengan mengambil semula petikan yang relevan daripada pangkalan pengetahuan yang dikurasi dan menjana jawapan yang dipetik daripada petikan tersebut. Formulanya ialah: Ingest (soalan) kemudian Analyze (cari dokumen relevan) kemudian Generate (jawapan dengan petikan). Ia berbeza daripada AI tujuan umum kerana jawapan didasarkan dalam dokumen khusus Anda, bukan data latihan am.

Apakah retrieval-augmented generation?

Retrieval-augmented generation (RAG) adalah teknik yang diperkenalkan dalam kertas 2020 oleh Lewis et al. yang menggabungkan sistem pengambilan semula (yang mencari dokumen relevan daripada pangkalan pengetahuan) dengan model bahasa (yang menjana jawapan yang koheren menggunakan dokumen tersebut sebagai konteks). Langkah pengambilan semula mencegah halusinasi dengan mendasarkan keluaran model dalam bahan sumber yang khusus dan telah disahkan berbanding pengetahuan latihan umumnya.

Bila Anda harus menggunakan RAG berbanding carian biasa?

Gunakan RAG apabila mencari dokumen tidak mencukupi dan pengguna memerlukan jawapan yang disintesis. Carian tradisional mengembalikan dokumen dan memerlukan pengguna membaca dan mensintesis. RAG mengembalikan jawapan terus dengan petikan dalam 30-60 saat. RAG adalah pilihan yang betul apabila soalan adalah khusus dan boleh dijawab daripada pengetahuan dalaman Anda, atribusi sumber penting kepada pengguna, dan pangkalan pengetahuan terpelihara dengan baik.

Apakah mod kegagalan RAG yang paling biasa?

Mod kegagalan RAG yang paling berbahaya adalah petikan yang dihalusinasikan, di mana model menjana jawapan yang yakin dengan sumber yang dipetik yang sebenarnya tidak mengandungi tuntutan tersebut. Kegagalan biasa lain termasuk pangkalan pengetahuan yang lapuk (dokumen yang lapuk mengembalikan jawapan yang lapuk), pengambilan semula yang buruk (bahagian tidak relevan dikembalikan untuk pertanyaan), dan jurang pangkalan pengetahuan (topik tidak didokumentasikan). Memeriksa sampel 50 jawapan seminggu terhadap sumber yang dipetik adalah satu-satunya cara yang boleh dipercayai untuk menangkap petikan yang dihalusinasikan.

Apakah Peraturan Pengambilan-Sebelum-Penjanaan?

Peraturan Pengambilan-Sebelum-Penjanaan menyatakan bahawa setiap sistem RAG pengeluaran mesti melaksanakan kedua-dua pengambilan semula daripada sumber yang dipercayai dan petikan kandungan yang diambil semula. Melangkau pengambilan semula menghasilkan halusinasi (model menjana daripada latihan am tanpa asas). Melangkau petikan menghasilkan jawapan yang tidak dapat disahkan yang tidak dapat diperiksa atau dieskalaikan oleh pengguna. Kedua-dua bahagian diperlukan agar RAG dapat memberikan ketepatan dan kebolehpercayaan yang membenarkan penggunaannya berbanding carian tradisional.

ROI apa yang harus dijangka daripada RAG Assistant?

RAG Assistant polisi HR yang dilaksanakan dengan baik biasanya membelokkan 35-55% soalan polisi rutin dalam 90 hari. Pasukan sokongan yang menggunakan copilot agen berkuasa RAG melihat pengurangan 20-30% dalam masa pengendalian purata pada kategori tiket yang diliputi. Sistem RAG onboarding kejuruteraan mengurangkan masa rampai pekerja baru sebanyak 15-25%. Ketepatan jawapan harus menyasarkan 90%+ untuk kes penggunaan berisiko tinggi. Di bawah ketepatan 80%, risiko pematuhan bertindak atas jawapan yang salah mula melebihi penjimatan masa.

Ketahui lebih lanjut