Artikel Pajak

Optimalisasi Supervised Learning untuk Deteksi Riwayat Kepatuhan Pajak dalam Penanggulangan Shadow Economy di Era Ekonomi Digital

Ekonomi digital merupakan salah satu sektor yang memiliki perkembangan pesat seiring dengan meningkatnya minat dan partisipasi konsumen. Indonesia turut mengambil peran dalam arus perkembangan ekonomi digital, khususnya dalam pertumbuhan nilai transaksi digital. Pada tahun 2024, nilai ekonomi digital Indonesia mencapai sekitar US$ 90 miliar atau setara dengan Rp1.467 triliun (US$ 1 = Rp16.307,79), dan diproyeksikan nilai tersebut akan meningkat hingga US$ 120 miliar pada tahun 2025 (Google, 2024). Dengan kisaran nilai ekonomi tersebut diharapkan dapat meningkatkan pemasukan kas negara sekaligus menjadi penopang pertumbuhan ekonomi Indonesia pada tahun-tahun mendatang. Namun, potensi tersebut dinilai belum dimanfaatkan secara optimal, sebagaimana Direktorat Jenderal Pajak (DJP) mengkritisi rendahnya kepatuhan pajak dari pelaku usaha toko online (Arief, 2025).

Oleh karena itu, pemerintah menunjuk marketplace sebagai Pemungut Pajak Penghasilan (PPh) Pasal 22 atas transaksi pedagang dalam negeri melalui platform perdagangan elektronik, sebagaimana diatur dalam PMK Nomor 37 Tahun 2025. Aturan ini menetapkan tarif pemungutan sebesar 0,5% dari nilai transaksi, dengan ketentuan final atau tidak final bergantung pada klasifikasi wajib pajak dan peredaran bruto. Hal ini telah diberlakukan oleh pemerintah sejak 14 Juli 2025 dalam mengoptimalkan pemasukan kas negara melalui transaksi digital yang sebelumnya sulit terpantau secara efektif. Meski kebijakan tersebut telah diterapkan, efektivitasnya masih terbatas karena terdapat celah penghindaran pajak, terutama akibat asimetri data transaksi. Kondisi ini terjadi ketika pembayaran dilakukan secara langsung melalui transfer maupun melalui transaksi di luar sistem marketplace.

Fenomena tersebut merupakan bagian dari shadow economy, yaitu aktivitas ekonomi yang sengaja dilakukan untuk menghindari pajak atau regulasi pemerintah, sehingga dapat menimbulkan kerugian yang signifikan terhadap pertumbuhan penerimaan pajak negara (Theodora & Warastri, 2024). Per 31 Oktober 2024, realisasi penerimaan pajak Indonesia tercatat sebesar Rp 1.517,53 triliun. Angka ini menunjukkan selisih yang cukup signifikan dibandingkan dengan target yang telah ditetapkan pemerintah pada awal tahun, yakni sebesar Rp 1.988,9 triliun. Artinya, pertumbuhan penerimaan pajak Indonesia mengalami kontraksi sebesar -0,4 persen dan kondisi tersebut berimplikasi pada berkurangnya kapasitas fiskal negara dalam membiayai kebutuhan belanja yang relatif besar. Mengingat cakupan data transaksi yang semakin kompleks, terutama dari sektor e-commerce yang kerap dimanfaatkan pelaku usaha untuk menghindari pelaporan pajak, maka diperlukan pendekatan berbasis machine learning guna membantu DJP dalam memilah dan menganalisis pola kepatuhan wajib pajak. Secara nyata, teknologi machine learning dapat diimplementasikan melalui identifikasi pola mencurigakan berdasarkan dengan riwayat kepatuhan wajib pajak.

Penanggulangan fenomena shadow economy sendiri sangat rumit untuk dilakukan apabila DJP hanya mengandalkan metode konvensional dan mengalokasikan dana besar kepada ribuan pekerja. Hal ini disebabkan karena aktivitas shadow economy umumnya tidak tercatat secara resmi, dilakukan secara tunai, serta tersebar dalam skala kecil sehingga sulit dijangkau melalui survei maupun pemeriksaan manual. Selain itu, keterbatasan data resmi dan tingginya biaya audit membuat metode konvensional tidak efisien dalam mendeteksi praktik shadow economy. Oleh karena itu, machine learning diperlukan karena mampu menganalisis data dalam jumlah besar, mendeteksi pola dan anomali yang tidak terlihat secara manual, serta menggabungkan berbagai sumber data untuk memperkirakan potensi pelanggaran. Dengan kemampuan ini, DJP dapat melakukan pemantauan secara lebih akurat, cepat, dan berkelanjutan dibandingkan hanya mengandalkan pendekatan tradisional.

Sejalan dengan urgensi tersebut, teknologi machine learning hadir sebagai cabang dari artificial intelligence yang dapat belajar membuat keputusan sendiri tanpa harus diprogram berulang kali oleh manusia sehingga komputer dapat menjadi lebih pintar dan belajar dari pengalamannya dengan data (Wijoyo et al., 2024). Machine learning memiliki berbagai pendekatan yang dapat disesuaikan dengan karakteristik data maupun tujuan analisis. Salah satu metode yang dinilai paling optimal dalam konteks permasalahan perpajakan adalah supervised learning, yaitu pendekatan yang memanfaatkan data historis berlabel untuk membangun model prediksi. Dalam praktiknya, supervised learning dapat digunakan untuk memprediksi potensi penghindaran pajak berdasarkan riwayat kepatuhan wajib pajak.

Gambar 1. Flow Diagram Supervised of the Machine Learning Process (Li et al., 2024)

Agar implementasinya efektif, supervised learning dalam konteks perpajakan perlu dijalankan melalui serangkaian tahapan yang sistematis. Langkah pertama adalah pengumpulan dan integrasi data dari berbagai sumber, baik internal maupun eksternal. Data internal meliputi laporan SPT tahunan, riwayat pembayaran pajak, serta hasil pemeriksaan yang dilakukan DJP. Sementara itu, data eksternal dapat berasal dari perbankan, marketplace, lembaga keuangan, bahkan data konsumsi energi dan aktivitas perdagangan yang dilakukan nasional maupun internasional. Melalui integrasi tersebut, supervised learning dapat mempelajari pola-pola dari data yang beragam untuk kemudian menghasilkan prediksi dalam bentuk klasifikasi potensi penghindaran pajak.

Tahap berikutnya adalah pelabelan data atau data labeling, yakni proses mengklasifikasikan data historis berdasarkan kategori tertentu. Contohnya, laporan yang telah terbukti wajar akan diberi label “normal”, sedangkan laporan yang bermasalah akan diberi label “mencurigakan”. Sehingga, jika wajib pajak dominan memiliki laporan dengan label “mencurigakan” akan dikategorikan sebagai “tidak patuh” sesuai dengan catatan historisnya. Proses pelabelan ini sangat krusial karena menjadi fondasi dalam membedakan pola antara aktivitas yang sehat dengan aktivitas yang berisiko secara otomatis dari model. Pemberian label pada data historis yang dilakukan secara manual atau semi-otomatis berguna untuk memastikan keakuratan dalam pengenalan pola sesuai dengan standar yang berlaku, serta memungkinkan model memprediksi potensi penghindaran pajak berdasarkan riwayat kepatuhan wajib pajak.

Selanjutnya, data yang telah dilabeli diproses menggunakan algoritma supervised learning. Fungsi pengolahan data menggunakan algortima yang telah dilabelkan berguna untuk menginstruksi model untuk mengubah input data menjadi menjadi output prediksi secara matematis. Saat model dilatih, algoritma akan menghitung bobot untuk setiap fitur sehingga prediksi terhadap data historis berlabel menjadi seakurat mungkin. Misalnya, jika fitur riwayat keterlambatan pelaporan SPT atau frekuensi keterlambatan pembayaran pajak menunjukkan pola tertentu pada wajib pajak yang tidak patuh, bobot fitur tersebut akan diperkuat agar model dapat mengenali perilaku serupa pada wajib pajak selanjutnya. Beberapa algoritma yang umum digunakan antara lain Logistic Regression, Random Forest, dan Gradient Boosting. Setiap algoritma yang tersedia memiliki keunggulan dan kegunaan spesifiknya masing-masing, tergantung karakteristik data dan tujuan analisis.

Logistic Regression merupakan algoritma supervised learning yang digunakan untuk mengklasifikasikan data ke dalam kategori biner, misalnya “patuh” atau “tidak patuh” pada konteks kepatuhan pajak. Algoritma ini bekerja dengan menghitung probabilitas suatu kejadian berdasarkan kombinasi linier dari fitur-fitur input, kemudian menerapkan fungsi logistik (sigmoid) untuk memetakan nilai hasil ke dalam rentang 0 hingga 1. Parameter atau bobot dari setiap fitur disesuaikan melalui proses training agar model dapat memprediksi kelas dengan akurasi maksimal berdasarkan data historis berlabel. Logistic Regression relatif mudah diinterpretasikan karena setiap bobot fitur menunjukkan pengaruh relatifnya terhadap probabilitas kejadian tertentu, sehingga auditor atau petugas pajak dapat memahami alasan prediksi. Keunggulan ini membuat Logistic Regression sangat cocok untuk mendeteksi anomali atau perilaku tidak patuh dalam laporan pajak, sekaligus memberikan penjelasan yang dapat dipertanggungjawabkan secara profesional.

Selain itu, Logistic Regression mampu menangani dataset yang besar dengan efisien dan dapat dikombinasikan dengan teknik feature engineering untuk meningkatkan kualitas prediksi. Model ini memungkinkan integrasi berbagai sumber data, seperti riwayat keterlambatan SPT, frekuensi keterlambatan pembayaran, nilai transaksi rata-rata, dan catatan pemeriksaan sebelumnya. Dengan integrasi ini, model dapat mengenali pola-pola kepatuhan maupun ketidakpatuhan yang kompleks dan tersembunyi di antara ribuan transaksi. Logistic Regression juga mendukung evaluasi menggunakan metrik seperti precision, recall, F1-score, dan AUC-ROC, sehingga kualitas prediksi dapat diukur secara objektif. Dengan demikian, algoritma ini menawarkan keseimbangan antara interpretabilitas, efisiensi, dan kemampuan prediksi yang kuat untuk aplikasi pengawasan pajak berbasis supervised learning.

Setelah model dilatih, tahap berikutnya adalah pengujian dan validasi, di mana data baru yang belum pernah digunakan dalam proses pelatihan dimasukkan untuk menilai akurasi prediksi model. Pada tahap ini, misalnya, model diuji apakah benar dalam menandai transaksi yang mencurigakan atau seberapa tepat model dalam mengidentifikasi wajib pajak yang rawan menghindari pajak. Proses validasi ini penting untuk memastikan model tidak hanya “hafal” pada data lama (overfitting), melainkan benar-benar mampu memprediksi kondisi baru di lapangan. Selain itu, evaluasi ini memungkinkan penyesuaian dan penyempurnaan model, seperti revisi bobot fitur atau penambahan data baru, sehingga prediksi menjadi lebih akurat dan adaptif terhadap perubahan pola kepatuhan pajak.

Implementasi supervised learning kemudian diwujudkan dalam bentuk sistem pendukung keputusan (decision support system) bagi DJP. Sistem ini tidak menggantikan peran auditor manusia, melainkan menjadi alat bantu yang mempercepat proses analisis dan pemantauan. Misalnya, alih-alih memeriksa seluruh wajib pajak secara manual yang tentu memerlukan biaya besar, auditor cukup berfokus pada wajib pajak dengan skor risiko tinggi berdasarkan hasil prediksi model. Dengan demikian, alokasi sumber daya menjadi lebih efisien, sementara potensi kebocoran penerimaan negara dapat ditekan. Oleh karena itu, diharapkan supervised learning dapat mengoptimalkan kebijakan fiskal di Indonesia melalui peningkatan efektivitas pengawasan wajib pajak. Sehingga, pemerintah dapat meminimalisir praktik shadow economy, khususnya pada sektor e-commerce dan marketplace.

Teknologi supervised learning hanya memfasilitasi proses analisis dan prediksi berbasis data, sehingga hasil akhirnya tetap harus diinterpretasikan oleh pembuat kebijakan. Dengan kata lain, peran supervised learning bukan menggantikan fungsi manusia, melainkan membantu pemerintah dalam mengidentifikasi pola ketidakpatuhan pajak yang sulit dideteksi secara manual. Melalui prediksi yang dihasilkan, pembuat kebijakan dapat menyusun strategi pengawasan yang lebih tepat sasaran, meningkatkan efisiensi dalam alokasi sumber daya, serta memperkuat keadilan fiskal. Namun demikian, validitas hasil prediksi tetap sangat bergantung pada kualitas data yang digunakan serta kebijakan yang diambil dari output model tersebut.

Oleh karena itu, pemerintah Indonesia perlu memulai dengan membangun infrastruktur data yang kuat dan terintegrasi. Saat ini, banyak data yang masih tersebar di berbagai lembaga tanpa adanya sistem koneksi yang memadai, sehingga analisis menggunakan supervised learning sulit dilakukan. Integrasi data antara Direktorat Jenderal Pajak, Bea Cukai, perbankan, dan platform digital harus menjadi prioritas. Langkah ini akan memungkinkan pemerintah mengakses data yang komprehensif untuk mendeteksi aktivitas ekonomi digital tersembunyi. Dengan infrastruktur data yang terpadu, peluang kebocoran pajak dapat ditekan secara signifikan.

Selain infrastruktur, regulasi yang jelas dan tegas harus segera disusun. Penerapan supervised learning dalam sektor fiskal menuntut adanya aturan mengenai privasi data, standar keamanan, serta batasan penggunaan algoritma agar tetap selaras dengan prinsip hukum. Regulasi ini juga penting untuk menciptakan kepercayaan publik, karena masyarakat akan lebih bersedia memberikan data mereka jika merasa terlindungi secara hukum. Pemerintah dapat mencontoh praktik terbaik dari negara lain, tetapi tetap harus menyesuaikan dengan konteks Indonesia. Dengan regulasi yang kokoh, risiko penyalahgunaan teknologi dapat diminimalisasi.

Secara teknis, keunggulan supervised learning terletak pada keakuratan prediksinya yang mampu mengidentifikasi pola transaksi mencurigakan melalui data historis, sehingga dapat menghasilkan sistem deteksi dini yang adaptif dan akurat. Dengan penerapan teknologi ini, pemerintah dapat mengurangi praktik shadow economy di sektor digital, termasuk pada platform e-commerce, yang selama ini sulit diawasi secara manual. Potensi besar tersebut tidak hanya berkontribusi terhadap peningkatan efektivitas pemungutan pajak dan pengawasan fiskal, tetapi juga menjadi pendorong transformasi ekonomi digital yang lebih transparan, sehat, dan berkelanjutan. Sehingga, apabila hal ini diterapkan, Direktorat Jenderal Pajak (DJP) dapat menanggulangi fenomena shadow economy secara lebih efektif dan efisien, tanpa harus bergantung pada pendekatan konvensional yang cenderung menghabiskan lebih banyak sumber daya dibandingkan dengan pemanfaatan teknologi supervised learning. Namun demikian, pemerintah Indonesia juga perlu mengoptimalkan integrasi data serta memperkuat kebijakan regulasi keamanannya agar pemanfaatan supervised learning dalam menanggulangi shadow economy dapat berjalan secara maksimal dan berkelanjutan.

Referensi

Categories:

Artikel Pajak
Pajak 101 Logo

Jadwal Training

Jadwal Lainnya

Artikel Terkait

© Copyright 2025 PT INTEGRAL DATA PRIMA