Belajar Transformers dari Nol: Arsitektur yang Mengubah Segalanya

Pada tahun 2017, satu paper mengubah arah seluruh industri AI. "Attention Is All You Need" oleh Vaswani et al. memperkenalkan arsitektur Transformer—sebuah desain neural network yang sepenuhnya berbasis mekanisme attention, tanpa recurrent atau convolutional layer. Delapan tahun kemudian, Transformer menjadi fondasi bagi GPT, BERT, LLaMA, dan hampir setiap model AI yang kita gunakan hari ini. Memahaminya bukan lagi kemewahan—ia adalah prasyarat.

Masalah dengan Arsitektur Sebelumnya

Sebelum Transformer, Natural Language Processing (NLP) didominasi oleh:

RNN / LSTM: Memproses token secara sekuensial. Masalah: tidak bisa diparalelkan, gradient vanishing pada sequence panjang, dan bottleneck informasi antara langkah awal dan akhir.
CNN untuk NLP: Bisa diparalelkan, tetapi receptive field terbatas—butuh banyak layer untuk menangkap dependensi jarak jauh (long-range dependency).

Kedua pendekatan ini memiliki batas fundamental: mereka memproses informasi secara lokal dan sekuensial. Transformer mengatasi keduanya dengan memungkinkan setiap token "melihat" semua token lain dalam satu langkah komputasi paralel.

Anatomi Transformer

Arsitektur Transformer terdiri dari dua bagian utama: Encoder dan Decoder. Paper asli menggunakan keduanya untuk machine translation, tetapi varian modern biasanya hanya menggunakan salah satu.

1. Input Embedding + Positional Encoding

Transformer tidak memiliki pemahaman bawaan tentang urutan token (karena memproses semua secara paralel). Untuk mengatasi ini, positional encoding ditambahkan ke embedding setiap token:

# Positional Encoding (simplified)
import math

def positional_encoding(seq_len, d_model):
    pe = torch.zeros(seq_len, d_model)
    position = torch.arange(0, seq_len).unsqueeze(1)
    div_term = torch.exp(
        torch.arange(0, d_model, 2) * 
        -(math.log(10000.0) / d_model)
    )
    pe[:, 0::2] = torch.sin(position * div_term)  # dim genap
    pe[:, 1::2] = torch.cos(position * div_term)  # dim ganjil
    return pe

Fungsi sinusoidal ini memungkinkan model belajar posisi relatif antar token dan menggeneralisasi ke sequence length yang belum pernah dilihat saat training.

2. Self-Attention: Inti dari Segalanya

Self-attention adalah mekanisme yang memungkinkan setiap token dalam sequence memperhatikan setiap token lain dengan bobot yang dipelajari. Tiga vektor dihitung untuk setiap token:

Query (Q): "Apa yang sedang saya cari?"
Key (K): "Apa yang saya tawarkan?"
Value (V): "Apa informasi yang saya bawa?"

# Scaled Dot-Product Attention
def attention(Q, K, V, d_k):
    scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
    weights = torch.softmax(scores, dim=-1)
    return torch.matmul(weights, V)

Kenapa dibagi sqrt(d_k)? Tanpa scaling, dot product Q·K memiliki varians yang meningkat seiring dimensi, membuat softmax "tajam" secara berlebihan dan gradient menjadi kecil. Scaling menstabilkan training.

3. Multi-Head Attention

Alih-alih satu attention function, Transformer menjalankan h attention secara paralel (paper asli: h=8), masing-masing dengan proyeksi Q, K, V yang berbeda. Ini memungkinkan model secara simultan memperhatikan berbagai jenis relasi:

Head 1 mungkin fokus pada hubungan sintaksis (subjek–predikat)
Head 2 mungkin fokus pada coreferensi (pronoun–noun)
Head 3 mungkin fokus pada posisi relatif (kata yang berdekatan)

Output dari semua head digabungkan dan diproyeksikan kembali ke dimensi model.

4. Feed-Forward Network (FFN)

Setelah attention, setiap token melewati FFN yang identik (shared weights per layer, berbeda antar layer):

# FFN: expand-then-contract
FFN(x) = W2 · ReLU(W1 · x + b1) + b2

# Dimensi tipikal:
# d_model = 512 → d_ff = 2048 → d_model = 512

FFN berfungsi sebagai "memori non-linear" yang memproses informasi yang sudah diagregasi oleh attention. Rasio ekspansi 4× adalah konvensi yang terbukti efektif.

5. Residual Connection + Layer Normalization

Setiap sub-layer (attention dan FFN) dibungkus dengan residual connection dan layer norm:

# Post-LN (original paper)
output = LayerNorm(x + SubLayer(x))

# Pre-LN (modern, more stable)
output = x + SubLayer(LayerNorm(x))

Residual connection memungkinkan gradient mengalir langsung ke layer awal (mengatasi vanishing gradient), sementara layer norm menstabilkan distribusi aktivasi.

Encoder vs Decoder: Dua Dunia

Aspek	Encoder (BERT)	Decoder (GPT)
Attention	Full (bidirectional)	Masked (causal, left-to-right)
Pretraining	Masked Language Model	Next Token Prediction
Kekuatan	Representasi kontekstual kaya	Generasi teks koheren
Kelemahan	Tidak bisa generate	Hanya melihat konteks kiri

Varian Modern: Dari BERT ke LLaMA

BERT (2018) — Encoder-Only

Google memperkenalkan Bidirectional Encoder Representations. BERT melihat seluruh konteks (kiri dan kanan) sekaligus, membuatnya sangat baik untuk tugas pemahaman teks. Tapi ia tidak bisa menghasilkan teks.

GPT Series (2018–2024) — Decoder-Only

OpenAI bertaruh pada autoregressive decoding. Setiap token hanya melihat token sebelumnya. Sederhana, scalable, dan—dengan parameter yang cukup—muncul kemampuan emergent yang mengejutkan.

T5 (2020) — Encoder-Decoder

Google mempertahankan arsitektur asli Transformer dengan text-to-text framework: setiap tugas NLP direformulasikan sebagai input teks → output teks.

LLaMA (2023–2024) — Decoder-Only, Efficient

Meta memperkenalkan sejumlah optimasi: Rotary Positional Embedding (RoPE), SwiGLU activation (menggantikan ReLU), dan Grouped Query Attention (GQA) yang mengurangi biaya memori KV-cache.

Mengapa Transformer Skala?

Tiga properti kunci membuat Transformer sangat scalable:

Paralelisasi penuh: Tidak ada dependensi sekuensial. Semua token diproses simultan di GPU, memanfaatkan arsitektur paralel secara maksimal.
Kompositional depth: Setiap layer menambahkan satu "hop" reasoning. Layer 1 menangkap relasi lokal; layer 32 menangkap relasi abstrak.
Scaling laws: Kaplan et al. (2020) menunjukkan bahwa performa model berhubungan secara power-law dengan jumlah parameter, data, dan komputasi. Lebih besar hampir selalu lebih baik.

"Attention Is All You Need bukan hanya paper tentang mekanisme attention. Ia adalah demonstrasi bahwa arsitektur yang benar, dikombinasikan dengan skala yang cukup, dapat menghasilkan kemampuan yang tidak diantisipasi oleh siapa pun."

Transformer untuk Teknologi Pajak

Di ranah teknologi pajak, Transformer memiliki aplikasi yang sangat konkret:

Parsing dokumen regulasi: Model berbasis BERT dapat mengekstraksi kewajiban, pengecualian, dan batas waktu dari dokumen peraturan pajak yang panjang dan kompleks.
Klasifikasi transaksi: Secara otomatis mengkategorikan transaksi ke kode PPh, PPN, atau PPnBM berdasarkan deskripsi naratif—bukan kode manual.
Anomali detection: Transformer dapat memproses sequence transaksi dan mengidentifikasi pola yang tidak biasa, mengindikasikan penghindaran pajak atau kesalahan pelaporan.
Chatbot konsultasi pajak: Decoder-only model fine-tuned pada corpus pajak Indonesia dapat menjawab pertanyaan Wajib Pajak dengan akurat dan kontekstual.

Cara Mulai Belajar

Matematika: Pahami linear algebra (matriks, dot product), kalkulus (gradient, chain rule), dan probabilitas (softmax, cross-entropy).
Implementasi dari nol: Tulis self-attention dalam NumPy. Lalu tambahkan multi-head, layer norm, dan FFN. Ini memberikan pemahaman yang tidak bisa didapat dari library.
PyTorch: Implementasikan full Transformer menggunakan torch.nn. Gunakan nn.MultiheadAttention untuk verifikasi.
Hugging Face: Eksplorasi model pretrained dengan library transformers. Fine-tune BERT untuk tugas klasifikasi teks.
Paper reading: Baca paper asli "Attention Is All You Need", lalu "BERT", "GPT-3", dan "LLaMA". Setiap paper menambahkan satu konsep kunci.

Kesimpulan

Transformer bukan sekadar arsitektur—ia adalah paradigma. Dengan menggantikan recurrence dengan attention, Vaswani et al. membuka pintu untuk model yang bisa memproses informasi secara global, paralel, dan scalable. Memahami Transformer dari pertama prinsip adalah investasi yang akan terahasiakan di setiap layer karier AI Anda, dari riset hingga produksi. Dan bagi industri yang bergantung pada pemrosesan teks kompleks seperti teknologi pajak, Transformer bukan masa depan—ia adalah alat kerja hari ini.