Anda dapat memulai dari masalah bisnis Anda dan menemukan pola yang menyelesaikannya. Itulah jalur problem-first, yang dibahas dalam Choosing the Right AI Pattern for Your Problem.

Atau Anda dapat memulai dari data Anda dan menemukan apa yang dapat diterapkan dari posisi Anda saat ini. Itulah jalur data-first. Dan seringkali lebih jujur, karena pola yang terlihat menarik dalam demo vendor tidak selalu merupakan pola yang dapat didukung oleh data Anda saat ini.

Artikel ini adalah jalur data-first. Jika Anda mengetahui tipe data apa yang Anda miliki (dan pada kualitas seperti apa), Anda dapat mempersempit pilihan dengan cepat. Beberapa pola akan langsung dapat diterapkan. Yang lain memerlukan pekerjaan data terlebih dahulu. Beberapa tidak akan dapat dijangkau sampai Anda menyelesaikan masalah prasyarat tertentu. Untuk taksonomi lengkap tipe data sebelum memulai, the 7 types of data that power business AI adalah panduan yang tepat.

Matriks referensi

Strong Fit berarti pola menggunakan tipe data ini sebagai input utama dan dirancang di sekitarnya. Weak Fit berarti pola dapat menggunakan tipe ini tetapi bersifat sekunder atau situasional. Impossible berarti pola tidak dapat mengonsumsi tipe data ini secara bermakna.

Tipe Data	RAG Asst	Score+Route	Vision Extract	Meeting Intel	Anomaly Agent	Gen Research	Doc Review	Workflow Copilot	Personalization	Autonomous Agent
Teks	Strong	Weak	Weak	Weak	Weak	Strong	Strong	Strong	Weak	Strong
Terstruktur	Weak	Strong	Weak	Weak	Strong	Weak	Weak	Weak	Strong	Strong
Gambar	Impossible	Impossible	Strong	Impossible	Weak	Impossible	Weak	Impossible	Weak	Weak
Audio	Impossible	Impossible	Impossible	Strong	Impossible	Impossible	Impossible	Impossible	Impossible	Weak
Video	Impossible	Impossible	Impossible	Strong	Impossible	Impossible	Impossible	Impossible	Impossible	Weak
Kode	Weak	Impossible	Impossible	Impossible	Weak	Weak	Strong	Strong	Impossible	Strong
Time-series	Impossible	Strong	Impossible	Impossible	Strong	Impossible	Impossible	Impossible	Strong	Weak

Baca ini sebagai filter tahap pertama. Jika data utama yang Anda miliki adalah rekaman audio, Anda sedang melihat Meeting Intelligence. Jika itu adalah catatan CRM terstruktur dengan label hasil, Scoring and Routing dan Anomaly Agent adalah opsi yang paling mudah diterapkan. Memiliki tipe data memang perlu, tetapi belum cukup. Kualitas dan aksesibilitas data tersebut menentukan apakah pola benar-benar berhasil. Riset Gartner tentang AI-ready data essentials membuat perbedaan ini tajam: data "berkualitas tinggi" menurut standar tradisional tidak sama dengan data yang siap AI, karena pelatihan AI memerlukan data yang representatif, termasuk kasus edge yang dibersihkan oleh pembersihan data tradisional. Gartner memprediksi bahwa hingga 2026, organisasi akan meninggalkan 60% proyek AI karena kesiapan data yang tidak memadai.

Key Facts: Kesiapan Data dan AI Enterprise

80-90% data bisnis tidak terstruktur, sementara hanya 10-20% yang terstruktur, menurut Gartner. Sebagian besar perusahaan sangat meremehkan seberapa sedikit data terstruktur yang siap AI yang sebenarnya mereka miliki.

Hanya 10% perusahaan yang merasa sepenuhnya siap untuk mengadopsi AI, dan 54% mengakui bahwa mereka tidak memiliki infrastruktur database yang diperlukan. (Typedef AI Unstructured Data Report, 2025)

Gartner memprediksi bahwa hingga 2026, organisasi akan meninggalkan 60% proyek AI karena kesiapan data yang tidak memadai, bukan keterbatasan model.

Data teks

Teks adalah input yang paling serbaguna. Empat pola menggunakannya sebagai tipe data utama.

RAG Assistant sepenuhnya beroperasi dalam teks. Ia menyerap basis pengetahuan Anda (kebijakan, SOP, dokumentasi produk, tiket yang sudah diselesaikan), mengambil dokumen yang relevan, dan menghasilkan jawaban. Agar RAG berfungsi, teks Anda harus dapat ditemukan (terindeks, tidak tersebar di berbagai tempat penyimpanan file), terkini (dokumen usang menghasilkan jawaban yang salah tetapi terdengar percaya diri), dan tidak bertentangan (dua dokumen yang mengatakan hal yang berlawanan akan menghasilkan output yang tidak konsisten). Pola ini toleran terhadap prosa yang berantakan tetapi gagal pada dokumen sumber yang saling bertentangan.

Generative Research mengonsumsi teks dari berbagai sumber (web, dokumen internal, database eksklusif) dan mensintesisnya. Persyaratan kualitas di sini berbeda dari RAG: Anda membutuhkan keluasan lebih dari struktur. Pola ini dapat menangani sumber yang heterogen. Yang dibutuhkan adalah akses ke sumber-sumber tersebut, baik melalui API, scraping, maupun pengunggahan dokumen langsung.

Document Review memerlukan teks terstruktur, bukan teks percakapan. Sebuah NDA atau MSA memiliki bagian yang konsisten dan pola klausa yang dikenal. Generative Research dapat bekerja dengan posting blog. Document Review memerlukan dokumen yang mengikuti template atau standar. Berikan email berbentuk bebas dan penandaannya menjadi noise.

Workflow Copilot menggunakan teks apa pun yang ada dalam konteks pengguna saat ini: email yang sedang disusun, tiket yang sedang diselesaikan, catatan CRM pada akun yang sedang dibuka. Persyaratan kualitasnya adalah kesegaran kontekstual, bukan volume historis. Copilot memerlukan akses real-time ke teks kondisi terkini, bukan arsip historis.

Data terstruktur

Data terstruktur adalah angka, kategori, tanggal, dan catatan yang konsisten secara skema. Tiga pola paling langsung bergantung padanya.

"Perusahaan yang mencoba menerapkan model Scoring and Routing pada dataset CRM dengan kurang dari 80% pengisian field pada label hasil menghasilkan model yang berfungsi sebagai noise daripada sinyal. Lead berperingkat tinggi ditutup pada tingkat yang sama dengan lead berperingkat rendah. Masalahnya bukan model. Melainkan inputnya." (Rework Data Readiness Analysis, 2026)

Scoring and Routing memerlukan data terstruktur dengan tiga properti: volume yang memadai (biasanya 1.000+ catatan historis), label hasil (deal ditandai won/lost, lead ditandai converted/not, klaim ditandai fraudulent/legitimate), dan kelengkapan field (jika 40% catatan memiliki nilai null untuk fitur utama, model belajar dari sinyal yang tidak lengkap). Ini adalah pola yang paling langsung diblokir oleh kebersihan CRM yang tidak memadai. Dataset terstruktur yang bersih dengan label hasil adalah salah satu aset AI paling berharga yang dapat dimiliki perusahaan.

Anomaly Agent memerlukan data terstruktur dengan baseline yang stabil. Metrik time-series, catatan transaksi, log event. Model mempelajari tampilan "normal" dan menandai penyimpangan. Persyaratan kualitas: data baseline harus bersih (anomali dalam periode pelatihan membingungkan model), konsisten (field yang sama, skema yang sama, dari waktu ke waktu), dan cukup panjang (minimal 60 hari, satu tahun penuh untuk bisnis musiman).

Personalization Engine menggunakan data perilaku terstruktur: apa yang diklik pengguna, apa yang dibeli, berapa lama mereka tinggal di halaman, apa yang mereka nilai. Pola ini bekerja paling baik ketika event perilaku dilacak secara konsisten, setiap event memiliki pengenal pengguna, dan ada volume yang cukup per pengguna untuk membangun profil individual. Produk dengan traffic rendah atau B2B dengan jumlah pengguna kecil sering tidak dapat menerapkan pola ini secara efektif karena tidak ada cukup perilaku per pengguna untuk dipersonalisasi.

Data gambar

Gambar adalah tipe data yang paling terbatas. Satu pola dibangun di sekitarnya. Beberapa lainnya menggunakannya secara situasional.

Vision Extract adalah pola gambar yang kanonik. Ia menyerap gambar atau dokumen yang dipindai, mengekstrak field terstruktur, dan mendorong catatan ke sistem pencatatan. Persyaratan kualitas di sini spesifik dan tidak dapat dikompromikan: resolusi gambar harus cukup tinggi untuk membaca teks dengan jelas, varian dokumen perlu direpresentasikan dalam data pelatihan (faktur dari Vendor A terlihat berbeda dari Vendor B), dan field target perlu cukup konsisten agar model dapat menempatkannya dengan andal.

Personalization Engine dapat menggunakan gambar produk sebagai sinyal untuk rekomendasi (jika Anda melihat sneaker biru ini, berikut gaya yang serupa). Tetapi ini lebih merupakan fitur daripada kemampuan mandiri. Sebagian besar deployment mid-market dari Personalization Engine menggunakan data terstruktur perilaku, bukan sinyal gambar mentah.

Anomaly Agent dapat menandai anomali visual (rak produk dengan celah, bagian manufaktur dengan cacat) dalam deployment khusus. Tetapi ini memerlukan pipeline computer vision yang didedikasikan, bukan deployment AI bisnis standar.

Data audio

Audio hampir bersifat single-purpose dalam AI bisnis.

Meeting Intelligence adalah pola audio. Ia menyerap rekaman audio dari panggilan dan rapat, melakukan transkripsi, mengekstrak topik dan tindak lanjut, menghasilkan ringkasan, dan mendorong data terstruktur ke CRM. Persyaratan kualitasnya praktis: perekaman panggilan perlu diaktifkan (yang memerlukan persetujuan peserta di banyak yurisdiksi), kualitas audio perlu memadai untuk transkripsi (koneksi seluler yang buruk menghasilkan transkrip yang buruk, yang menyebar melalui setiap langkah hilir), dan diarisasi pembicara (mengetahui suara mana yang milik siapa) penting untuk atribusi.

Perbedaan penting: file audio dan transkrip audio adalah hal yang berbeda. Deployment Meeting Intelligence yang menyerap audio mentah menjalankan pipeline yang lebih kompleks daripada yang menyerap teks yang sudah ditranskripsikan. Banyak tim melewatkan ingesti audio mentah dan menggunakan layanan transkripsi (Otter.ai, transkripsi Zoom, transkripsi Teams) sebagai langkah awal, kemudian memasukkan transkrip ke lapisan analisis. Itu adalah arsitektur yang valid dan seringkali lebih hemat biaya.

Autonomous Agent secara prinsip dapat mengonsumsi audio (agent dengan antarmuka suara), tetapi ini jarang terjadi dalam deployment bisnis standar. Sebagian besar pekerjaan autonomous agent berjalan pada input teks atau data terstruktur.

Data video

Video adalah tipe data dengan overhead pemrosesan tertinggi dan sebagian besar relevan sebagai superset dari audio.

Meeting Intelligence menangani panggilan video. Komponen video menambahkan informasi visual (apakah prospek mengangguk? apakah kamera dimatikan?) tetapi sebagian besar alat Meeting Intelligence yang diterapkan menganalisis track audio dan transkrip, bukan aliran video. Fitur khusus video (sinyal keterlibatan, isyarat visual) ada dalam produk seperti Gong tetapi bersifat sekunder dari analisis konten panggilan. Jika Anda memilih antara perekaman audio dan video untuk Meeting Intelligence, audio sudah cukup untuk sebagian besar use case.

Overhead-nya penting: file video 10-100x lebih besar dari file audio untuk durasi yang sama. Menyimpan, memproses, dan mengindeks video dalam skala besar memerlukan infrastruktur yang jauh lebih besar dari pipeline audio saja. Sebagian besar tim yang mengimplementasikan Meeting Intelligence untuk pertama kalinya harus mulai dengan audio.

Autonomous Agent dalam konteks navigasi visual (agent kontrol browser yang perlu melihat layar) menggunakan video atau screenshot sebagai input. Ini adalah pola deployment khusus, bukan alur kerja AI bisnis standar.

Data kode

Kode adalah teks, tetapi bukan prosa. Pola yang bekerja dengan kode memperlakukannya secara berbeda.

Workflow Copilot adalah pola kode yang kanonik. GitHub Copilot, Cursor, dan alat serupa adalah Workflow Copilot yang dikkhususkan untuk konteks coding. Mereka menyerap file yang terbuka di editor, konteks repositori, dan pengeditan yang sedang dilakukan pengguna, serta menghasilkan saran penyelesaian, refaktor, dan fungsi baru. Persyaratan kualitas: kode harus dapat diakses oleh alat (repo lokal, integrasi IDE), dan jendela konteks lebih penting daripada pada copilot prosa karena dependensi kode merentang beberapa file.

Document Review berlaku untuk kode dalam konteks kepatuhan atau keamanan. Audit keamanan yang meninjau kode untuk kerentanan OWASP, atau tinjauan legal yang memeriksa apakah integrasi API melanggar ketentuan vendor, adalah alur kerja Document Review yang diterapkan pada kode sebagai dokumen. Alat document review standar tidak mendukung ini. Anda memerlukan alat yang dibangun khusus untuk analisis kode.

Autonomous Agent di ujung spektrum coding (agent yang membaca isu, menulis kode, menjalankan tes, dan membuka pull request) memperlakukan kode sebagai input dan output. Agent menyerap isu GitHub (teks + konteks kode), menganalisis cakupan, menghasilkan perbaikan, dan mengeksekusi commit dan test run. Ini adalah salah satu aplikasi autonomous agent yang paling matang pada tahun 2026.

Data time-series

Data time-series adalah pengukuran apa pun yang diindeks ke waktu: metrik, pembacaan sensor, log transaksi, event penggunaan. Tiga pola menggunakannya.

Anomaly Agent adalah pola time-series utama. Ia dibangun untuk mempelajari tampilan time-series yang stabil dan menandai penyimpangan. Kesegaran dan konsistensi adalah dua persyaratan kualitas yang paling penting. Aliran metrik yang mengubah instrumentasi di tengah jalan menciptakan anomali palsu pada perubahan instrumentasi. Titik data yang hilang (celah dalam aliran) menciptakan false negative. Model memperlakukan celah sebagai normal, sehingga anomali yang terjadi selama celah tidak terdeteksi.

Scoring + Routing dapat memasukkan fitur time-series (berapa banyak tiket support dalam 30 hari terakhir? bagaimana tren NPS selama empat kuartal terakhir?) sebagai input ke model scoring. Tetapi ia memerlukan time-series tersebut dirangkum menjadi fitur terstruktur terlebih dahulu. Time-series mentah perlu diproses lebih dahulu (diagregasi, diwindow, dirangkum) sebelum berguna sebagai input scoring.

Personalization Engine menggunakan time-series secara implisit. Riwayat penelusuran pengguna dari waktu ke waktu, frekuensi pembelian mereka, pola musiman mereka: ini adalah sinyal perilaku time-series. Pola ini bekerja lebih baik ketika dapat melihat tren perilaku, bukan hanya snapshot satu waktu.

Beberapa deployment yang paling capable menggabungkan tipe data.

Meeting Intelligence + data terstruktur CRM: Mengetahui apa yang dikatakan dalam panggilan (audio) lebih berdaya ketika digabungkan dengan apa yang dikatakan CRM tentang akun (terstruktur). Ringkasan panggilan yang menunjukkan "prospek menyebutkan kekhawatiran harga" lebih berguna ketika sistem juga dapat menampilkan "akun ini berada di tahap berisiko selama 30 hari." Kombinasi tersebut memungkinkan langkah Generate menghasilkan konteks yang lebih kaya.

Personalization Engine + konten teks: Data perilaku terstruktur (apa yang diklik pengguna) dikombinasikan dengan metadata teks (topik apa konten tersebut) memungkinkan mesin mempersonalisasi di level konten, bukan hanya level item. Alih-alih "pengguna seperti Anda membeli produk ini," Anda mendapatkan "pengguna dengan pola membaca Anda cenderung peduli pada kepatuhan daripada harga."

Vision Extract + template sistem pencatatan terstruktur: Mengetahui tampilan faktur dalam model ekstraksi Anda bekerja lebih baik ketika model juga dapat melakukan kueri master vendor untuk memverifikasi nama vendor yang diekstraknya. Database terstruktur memvalidasi output ekstraksi gambar.

Kombinasi multi-modal memperluas apa yang mungkin tetapi melipatgandakan persyaratan kesiapan data. Anda memerlukan akses, kualitas, dan izin untuk setiap tipe data yang Anda gabungkan.

Data-Pattern Matrix

Data-Pattern Matrix adalah alat keputusan yang memetakan tujuh tipe data enterprise (teks, terstruktur, gambar, audio, video, kode, time-series) ke sepuluh pola AI berdasarkan tiga penilaian kesesuaian: Strong Fit (pola menggunakan tipe data ini sebagai input utama), Weak Fit (penggunaan sekunder atau situasional), dan Impossible (pola tidak dapat mengonsumsi tipe data ini secara bermakna). Matriks ini berfungsi sebagai filter tahap pertama: jika data terbaik yang Anda miliki tidak muncul sebagai input Strong Fit untuk pola yang Anda rencanakan, deployment Anda akan berkinerja rendah terlepas dari kualitas model.

Rework Analysis: Berdasarkan temuan Gartner bahwa 80-90% data enterprise tidak terstruktur dan 60% proyek AI yang kekurangan data siap AI ditinggalkan, Data-Pattern Matrix mengatasi kesalahan perencanaan AI yang paling umum: memilih pola berdasarkan kemampuan outputnya daripada persyaratan inputnya. Dalam pengalaman implementasi Rework, tim yang menjalankan matriks terhadap data yang sebenarnya tersedia sebelum berkomitmen pada suatu pola mengurangi waktu-ke-nilai mereka rata-rata 8 minggu, karena mereka menghindari penemuan di tengah integrasi bahwa tipe data utama mereka tidak mendukung pola yang dipilih.

Jalur cepat kesiapan data

Jika Anda mencari pola yang paling cepat dapat diterapkan dari setiap tipe data:

Jika data terbaik Anda adalah...	Mulailah dengan...	Karena...
Dokumen teks yang bersih (kebijakan, SOP, konten produk)	RAG Assistant	Overhead persiapan data rendah; nilai segera tinggi untuk knowledge worker
Catatan CRM dengan 12+ bulan hasil berlabel	Scoring + Routing	ROI yang jelas pada prioritisasi lead; model dilatih pada data yang sudah Anda miliki
Faktur, tanda terima, atau formulir yang dipindai	Vision Extract	Output terstruktur langsung berguna; ROI terukur dalam waktu pemrosesan
Rekaman panggilan sales atau support	Meeting Intelligence	Transkripsi andal; integrasi CRM memberikan nilai di hari pertama
Log transaksi atau aliran metrik dengan riwayat 90+ hari	Anomaly Agent	Baseline sudah terbentuk; penandaan dapat dimulai hampir segera
Dokumen web dan internal multi-sumber	Generative Research	Tidak perlu data terstruktur; kualitas riset meningkat segera
Repositori kode dengan backlog isu terbuka	Workflow Copilot	Alat developer sudah matang; adopsi tinggi ketika diintegrasikan di IDE

Ini adalah titik awal, bukan arsitektur akhir. Pola yang paling cepat diterapkan tidak selalu yang memiliki ROI jangka panjang tertinggi. Tetapi memulai dengan data terkuat Anda membangun kepercayaan organisasi, menghasilkan hasil yang terukur, dan menciptakan hasil berlabel yang akan Anda butuhkan untuk pola yang lebih kompleks nantinya.

Apa yang tidak diceritakan matriks ini

Memiliki tipe data tidak berarti Anda siap untuk menerapkan pola yang sesuai. Data Readiness Check by AI Pattern menjelaskan lebih dalam tentang ambang kualitas spesifik yang dibutuhkan setiap pola. Misalnya, data CRM terstruktur memang diperlukan untuk Scoring + Routing, tetapi data terstruktur yang hanya 60% lengkap pada field hasil belum siap.

Matriks ini juga tidak membahas ketergantungan antar pola. Meeting Intelligence dapat diterapkan dari data audio, tetapi jika Anda ingin outputnya mengalir ke Scoring + Routing, Anda juga memerlukan lapisan terstruktur yang berfungsi. Pattern Dependencies and Prerequisites membahas bagaimana pola-pola saling membangun.

Data adalah fondasinya. Matriks memberi tahu Anda pintu mana yang terbuka dari tempat Anda berdiri. Pemeriksaan kesiapan memberi tahu Anda apakah Anda benar-benar dapat melangkah melaluinya.

Pertanyaan yang Sering Diajukan

Apa kesalahan pemilihan pola AI yang paling umum?

Memilih pola berdasarkan output yang dijanjikan daripada input yang diperlukan. Model Scoring and Routing memerlukan data CRM terstruktur dengan hasil historis berlabel. Anomaly Agent memerlukan 60-90 hari data time-series baseline. RAG Assistant memerlukan basis pengetahuan yang terpelihara dan terkini. Memulai dari data yang Anda miliki daripada output yang Anda inginkan adalah jalur paling andal menuju pola pertama yang dapat diterapkan.

Pola AI mana yang dapat diterapkan tanpa data pelatihan historis?

RAG Assistant, Generative Research, Document Review, dan Workflow Copilot semuanya dapat diterapkan tanpa data pelatihan historis karena mereka menggunakan model bahasa yang sudah dilatih sebelumnya daripada model yang dilatih pada riwayat hasil spesifik Anda. Vision Extract memerlukan contoh pelatihan untuk jenis dokumen spesifik Anda tetapi bukan label hasil. Scoring, Routing, Anomaly Agent, dan Personalization Engine semuanya memerlukan data historis yang spesifik untuk lingkungan Anda.

Berapa persentase data enterprise yang sebenarnya terstruktur?

Gartner memperkirakan bahwa 80-90% data enterprise tidak terstruktur, artinya hanya 10-20% yang terstruktur. Kesenjangan ini adalah mengapa sebagian besar perusahaan memiliki jauh lebih sedikit data siap AI dari yang mereka asumsikan ketika merencanakan deployment pertama mereka. Pola yang paling bergantung pada data terstruktur (Scoring and Routing, Anomaly Agent, Personalization Engine) juga merupakan pola yang paling sering direncanakan tim untuk diterapkan pertama kali, sebelum mereka mengkonfirmasi data terstruktur tersebut benar-benar ada dan memiliki kualitas yang memadai.

Bisakah Meeting Intelligence bekerja dengan teks yang sudah ditranskripsikan alih-alih audio mentah?

Ya. Banyak deployment menggunakan layanan transkripsi (Zoom, Teams, Otter.ai) sebagai langkah awal, kemudian memasukkan transkrip ke lapisan analisis. Ini adalah arsitektur yang valid dan seringkali lebih hemat biaya. Perbedaan kualitas antara pipeline audio mentah dan yang sudah ditranskripsikan sebelumnya tidak signifikan untuk sebagian besar use case. Tradeoff utamanya adalah pipeline yang sudah ditranskripsikan sebelumnya bergantung pada kualitas layanan transkripsi, sementara pipeline audio mentah memberi Anda lebih banyak kontrol atas kualitas transkripsi.

Tipe data mana yang memiliki paling banyak pola yang dapat mengonsumsinya?

Teks dan data terstruktur masing-masing memiliki kompatibilitas pola yang paling luas. Teks adalah input utama untuk RAG Assistant, Generative Research, Document Review, dan Workflow Copilot, dengan penggunaan sekunder di beberapa lainnya. Data terstruktur adalah input utama untuk Scoring and Routing, Anomaly Agent, dan Personalization Engine. Sebagian besar portofolio AI enterprise pada akhirnya menggabungkan keduanya, itulah mengapa kombinasi teks-plus-terstruktur menghasilkan set pola yang paling kaya.

Pelajari lebih lanjut

About the author

Victor Hoang

Co-Founder, Rework.com

Victor Hoang is Co-Founder and CMO of Rework. He spent 12+ years scaling B2B SaaS growth, building a lead engine that generated over 1 million leads and $10M+ in annual recurring revenue. Today he builds AI agents and MCP servers into Rework's products to empower customers across growth and operations. He writes about what actually works.

View full profile LinkedIn