Eerlijk? GPU-workloads zijn in 2026 vaak gewoon de grootste post op de cloudfactuur — en het verschil tussen "duur" en "absurd duur" is meestal kleiner dan teams denken. Een enkele p5.48xlarge instance met 8x NVIDIA H100 kost on-demand zo'n $98 per uur. Een team dat 24/7 één instance laat draaien betaalt al meer dan $70.000 per maand. En tegelijk zijn die GPU's structureel onderbenut: studies van AWS en Azure laten keer op keer zien dat de gemiddelde GPU-bezetting voor inference rond de 15–30% blijft hangen.
Dus, laten we erin duiken. Deze gids geeft je een complete, praktische aanpak om in 2026 tot 70% te besparen op AI- en GPU-workloads in AWS, Azure en GCP. We behandelen LLM training, inference, accelerator-keuze, spot instances, batch processing, en hoe je FinOps-praktijken specifiek voor AI implementeert (want generieke FinOps werkt hier maar half).
Waarom AI-kosten exploderen in 2026
Er zijn drie krachten die GPU-rekeningen omhoog duwen, en ze versterken elkaar:
- Grotere modellen, langer trainen — Foundation models met 70B+ parameters vereisen multi-node clusters die dagen of soms weken draaien.
- Inference op schaal — Productie-LLM's verwerken miljoenen tokens per dag; bij $0,50–$3 per miljoen output tokens loopt dat sneller op dan je verwacht.
- GPU-schaarste premium — H100's en H200's zijn schaars. Cloud providers vragen premiums; on-demand pricing voor H100's ligt 4–5x hoger dan A100's.
Het goede nieuws: er zijn vier hefbomen waar elke euro besparing direct doorvalt naar de bottom line. Geen vage architectuurdiscussies — concrete knoppen die je vandaag kunt verdraaien.
De vier hefbomen voor GPU-kostenoptimalisatie
- Accelerator-keuze — Niet elke workload heeft een H100 nodig. Inferentia, Trainium, L4 GPU's en zelfs CPU-inference zijn vaak 50–80% goedkoper.
- Pricing model — Spot instances voor training (tot 90% korting), Savings Plans voor stabiele inference, on-demand alléén voor pieken.
- Workload-optimalisatie — Quantization, distillation, batching, KV-cache hergebruik en model parallelism reduceren GPU-uren met 30–60%.
- Operationele discipline — Auto-shutdown, scheduling, tagging en anomaly detection voorkomen "vergeten" notebook-instances en runaway training jobs.
Hefboom 1: kies de juiste accelerator
De grootste fout die ik teams telkens weer zie maken is overdimensionering. Iemand bij ML-engineering test een prototype op een H100 omdat die toevallig vrij was, en zes maanden later draait diezelfde workload nog steeds op H100's in productie — terwijl een L4 het ook prima had gedaan.
Mijn productie-aanbeveling is simpel: begin altijd met de kleinste haalbare accelerator en schaal pas op na meting. Niet andersom.
AWS GPU- en accelerator-prijzen (2026, on-demand, us-east-1)
| Instance | Accelerator | Geheugen | $/uur | Beste use case |
|---|---|---|---|---|
| p5.48xlarge | 8x H100 | 640 GB | ~$98,32 | LLM training 70B+ |
| p5e.48xlarge | 8x H200 | 1128 GB | ~$110,00 | Long-context training |
| p4d.24xlarge | 8x A100 | 320 GB | ~$32,77 | Training 7B–30B |
| g6.12xlarge | 4x L4 | 96 GB | ~$4,58 | Inference, rendering |
| inf2.48xlarge | 12x Inferentia2 | 384 GB | ~$12,98 | LLM inference (Llama, Mistral) |
| trn1.32xlarge | 16x Trainium | 512 GB | ~$21,50 | Training (PyTorch, JAX) |
| trn2.48xlarge | 16x Trainium2 | 1536 GB | ~$31,00 | Training foundation models |
Wanneer Trainium of Inferentia kiezen?
AWS' eigen accelerators zijn vaak 40–50% goedkoper per FLOP dan NVIDIA-equivalenten. Anthropic gebruikt Trainium2 voor het trainen van Claude — als dat geen goed signaal is, weet ik het ook niet meer. De catch (er is altijd een catch): je moet je code porten via de Neuron SDK. Voor PyTorch is dat meestal een kwestie van een paar regels:
import torch
import torch_neuronx
model = MyTransformer().eval()
example_inputs = torch.randint(0, 32000, (1, 128))
# Compileer voor Inferentia2
neuron_model = torch_neuronx.trace(
model,
example_inputs,
compiler_args=["--auto-cast=none", "--model-type=transformer"]
)
neuron_model.save("model_neuron.pt")
Azure GPU-pricing (2026)
- ND H100 v5 (8x H100) — ~$98/uur, vergelijkbaar met AWS p5.
- NC H100 v5 (1–2x H100) — ~$13–26/uur, geschikt voor kleinere training jobs.
- NC A100 v4 — ~$3,67/uur per A100, sterk voor 7B–13B modellen.
- NV A10 v5 — ~$1,20/uur, ideaal voor inference en fine-tuning van kleinere modellen.
GCP GPU-pricing (2026)
- A3 Mega (8x H100) — ~$88/uur (committed) tot $115 (on-demand).
- A3 Ultra (8x H200) — ~$110/uur committed.
- G2 (1–8x L4) — vanaf $0,71/uur per L4, beste voor inference.
- TPU v5e/v5p — vaak 30–50% goedkoper dan H100 voor TensorFlow/JAX-workloads.
Hefboom 2: het juiste pricing-model
Spot instances voor training (tot 90% korting)
Training is checkpointable en idempotent — perfect voor spot. Een p4d.24xlarge kost spot doorgaans $10–14/uur in plaats van $32,77 — een besparing van 60–70%. Met goed checkpointing (elke 30 minuten naar S3) is interruptie zelden een probleem. In de praktijk merken teams er nauwelijks iets van.
# SageMaker Training Job met spot
from sagemaker.pytorch import PyTorch
estimator = PyTorch(
entry_point="train.py",
role=role,
instance_count=4,
instance_type="ml.p4d.24xlarge",
use_spot_instances=True,
max_run=86400, # 24 uur max wallclock
max_wait=172800, # 48 uur max inclusief wachten
checkpoint_s3_uri="s3://my-bucket/checkpoints/",
checkpoint_local_path="/opt/ml/checkpoints/",
framework_version="2.3",
py_version="py311",
)
estimator.fit({"train": "s3://my-bucket/data/"})
Tip: gebruik capacity-optimized als allocation strategy in EC2 spot fleets. Dat alleen al vermindert interrupties met 30–50%.
Savings Plans en Reserved Capacity voor inference
Voor productie-inference die 24/7 draait zijn Compute Savings Plans (1 of 3 jaar) financieel het sterkst:
- 1-jaar no-upfront — circa 30% korting op p- en g-instances.
- 3-jaar all-upfront — tot 60% korting, maar je bindt jezelf aan een hardware-generatie.
- EC2 Instance Savings Plans geven hogere korting maar zijn instance-family specifiek — riskanter bij hardware-evoluties (bijv. H100 → H200 → B200).
Vuistregel 2026: commit je hooguit voor baseline capaciteit (de bodem van je 95e percentiel-gebruik). Schaal de rest met spot of on-demand. Met de snelle hardware-cyclus is een 3-jaar lock-in op H100's vaak duurder dan 1 jaar plus migreren naar B100/B200. Ik heb teams gezien die 18 maanden geleden vol overtuiging een 3-jaar H100-deal tekenden, en die nu, eerlijk gezegd, met enige spijt naar Blackwell-benchmarks kijken.
Provisioned throughput vs on-demand bij managed LLM-API's
Bedrock, Azure OpenAI en Vertex AI bieden allemaal "provisioned throughput" voor zware workloads. De break-even ligt typisch rond 800.000–1.500.000 tokens per uur:
- Onder die drempel: on-demand per-token pricing.
- Boven die drempel: provisioned units (PTU's) — vaste maandprijs, predictable latency.
Hefboom 3: workload-optimalisatie
Quantization: 4x kleiner, 2–3x goedkoper
FP16 → INT8 of INT4 quantization halveert geheugengebruik en verdubbelt vaak throughput. Een 70B Llama-model in FP16 vereist 140 GB; in INT4 past het op één H100 (80 GB):
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype="bfloat16",
bnb_4bit_use_double_quant=True,
)
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-3.3-70B-Instruct",
quantization_config=bnb_config,
device_map="auto",
)
Effect: een workload die op p5.48xlarge ($98/u) draaide past nu op p4d.24xlarge ($33/u), of zelfs op één H100. Besparing: 65–75%. En het kwaliteitsverlies? Op de meeste taken meetbaar onder de 1% — voor de meeste productie-cases volstrekt acceptabel.
Distillation: kleiner model, dezelfde kwaliteit
Voor specifieke taken (classificatie, summarisatie, extractie) kan een 7B-model dat is gedistilleerd uit een 70B-teacher 90–95% van de kwaliteit halen tegen 5–10% van de kosten. Frameworks zoals DistilKit en de OpenAI-distillation API maken dit toegankelijk — ook voor teams zonder PhD's in machine learning.
Batch inference
Real-time inference vereist lage latency en dus over-provisioning. Voor niet-real-time taken (rapporten, embeddings, samenvattingen) is batch inference dramatisch goedkoper:
- Bedrock Batch en OpenAI Batch API bieden 50% korting op token-prijzen.
- SageMaker Batch Transform gebruikt spot instances en stopt automatisch na de job.
- Vertex AI Batch Prediction levert vergelijkbare structuur op GCP.
KV-cache en continuous batching
Inference servers zoals vLLM, TGI en NVIDIA Triton implementeren continuous batching en paged attention. Het effect? 3–10x hogere throughput op dezelfde GPU. Voor zelf-gehoste LLM-inference is dit, zonder overdrijven, het belangrijkste optimalisatiemoment dat je hebt:
# vLLM serveren op één H100
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 1 \
--quantization awq \
--max-model-len 8192 \
--gpu-memory-utilization 0.92
Hefboom 4: operationele discipline (FinOps voor AI)
Auto-shutdown van notebooks
SageMaker- en Vertex-notebooks blijven vaak 's nachts en in het weekend gewoon dóórdraaien — vergeten door iemand die op vrijdagmiddag uitlogde. Stel auto-stop in:
aws sagemaker update-notebook-instance \
--notebook-instance-name ml-team-notebook \
--lifecycle-config-name auto-stop-after-1h
Een lifecycle-script dat na 60 minuten idle stopt voorkomt dat een $3/uur instance een weekend ($144) of een vakantie ($1.000+) vol draait. Ja, het is saai infrastructuurwerk. Nee, het loont enorm.
Tag elk GPU-resource per model en team
Verplichte tags voor 2026 FinOps-volwassenheid:
cost-center— financiële allocatiemodel-id— welk model draait hier (Llama-3.3-70B, eigen-fine-tune-v3, etc.)workload-type— training | inference | experimentowner— verantwoordelijke engineer of teamenvironment— prod | staging | dev
Zonder deze tags is showback/chargeback onmogelijk en blijft AI-spend een "black box" voor finance. En als finance er geen grip op heeft, krijg je vroeg of laat een vervelend gesprek met de CFO.
Anomaly detection
Stel AWS Cost Anomaly Detection of Azure Cost Management anomaly alerts in op je AI-services (SageMaker, Bedrock, ECS GPU clusters). Een runaway hyperparameter sweep kan in 24 uur duizenden euro's verbranden — anomaly alerts vangen dat binnen een paar uur, in plaats van pas wanneer de maandfactuur binnenkomt.
Quota's en budgetten als guardrail
# AWS Budget met actie: stop EC2 GPU instances bij 80% van budget
aws budgets create-budget \
--account-id 123456789012 \
--budget file://gpu-budget.json \
--notifications-with-subscribers file://gpu-alerts.json
Combineer dit met Service Control Policies die p5.* en p4d.* launches alleen toestaan vanuit een bepaalde IAM-rol. Dat voorkomt dat een data scientist per ongeluk 8 H100's start voor een experiment dat ook prima op een L4 had gekund. (Ja, dat gebeurt. Vaker dan je denkt.)
Praktijkvoorbeeld: 70% besparing op een productie-inferentie-workload
Een (fictief, maar gebaseerd op een reële case) team draaide Llama-3.3 70B op 4x p5.48xlarge — dat is $393/uur, oftewel $283.000 per maand — voor een chat-product met 50 RPS gemiddeld.
Diagnose: GPU-bezetting 22%, geen continuous batching, FP16, on-demand pricing. Klassiek geval van "we hebben het opgezet en niemand heeft er sindsdien naar gekeken."
Aanpassingen:
- vLLM met continuous batching → 3,5x throughput. Van 4 naar 2 instances.
- AWQ-quantization (4-bit) → past op p4d.24xlarge in plaats van p5.48xlarge.
- 1-jaar Compute Savings Plan → 30% korting op baseline.
- Spot fleet voor 30% piekcapaciteit → 65% korting op die delta.
- Bedrock Batch voor offline summarisatie-pipeline (was 20% van de load).
Resultaat: $283.000 → ~$84.000 per maand. Besparing: 70%, zonder kwaliteitsverlies in de latency-gevoelige paden.
Tooling-stack voor AI FinOps in 2026
- AWS Cost Explorer + CUR 2.0 — granulaire data per resource per uur.
- Kubecost / OpenCost — voor GPU-workloads op EKS/AKS/GKE met per-pod allocatie.
- Vantage, CloudZero, Finout — multi-cloud FinOps platforms met AI-specifieke views.
- Helicone, Langfuse — token-level tracking voor LLM-API-calls (Bedrock, OpenAI, Anthropic).
- NVIDIA DCGM Exporter — Prometheus metrics voor GPU-utilisatie. Onmisbaar voor right-sizing-beslissingen.
Veelgemaakte fouten
- "We hebben de nieuwste GPU nodig" — meestal niet. Begin met L4 of A10 voor inference en kijk wat er gebeurt.
- 3-jaar Reserved op H100's — Blackwell (B100/B200) komt eraan; lock je niet langer dan 1 jaar in.
- Real-time inference voor alles — 30–50% van je workload kan vaak via batch (en dat is letterlijk de helft van de prijs).
- Zelf hosten als je <1M tokens/dag doet — managed API's (Bedrock, Anthropic, OpenAI) zijn op kleine schaal goedkoper en bezorgen je vrijwel altijd minder operationeel werk.
- Geen tags op GPU-resources — onmogelijk te alloceren, dus onmogelijk te optimaliseren. Zo simpel is het.
FAQ
Wat is de goedkoopste manier om Llama 3.3 70B in productie te draaien?
Voor <1M tokens per dag: een managed provider (Bedrock, Anthropic, Together AI). Voor >5M tokens/dag: zelf hosten op AWS Inferentia2 (inf2.48xlarge) of een p4d.24xlarge spot fleet met vLLM en AWQ-quantization. Inferentia2 levert vaak de laagste $/1M tokens voor zelf-gehoste Llama-inference.
Zijn spot GPU's veilig voor LLM training?
Ja, mits je elke 15–30 minuten checkpoint naar S3/Blob/GCS en je framework (PyTorch Lightning, DeepSpeed, Hugging Face Trainer) automatic resume ondersteunt. Interrupties kosten typisch <5% extra wallclock-tijd, terwijl spot 60–90% korting levert. Reken het zelf uit — de math wint vrijwel altijd.
Hoe vergelijk ik GPU-prijzen tussen AWS, Azure en GCP?
Vergelijk niet op $/uur per instance, maar op $/1000 trainings-tokens of $/1M inference-tokens — dat normaliseert verschillen in GPU-aantal, geheugen en netwerk. Vendor-onafhankelijke benchmarks zoals MLPerf en de Artificial Analysis-rapporten geven goede referenties. En vergeet de egress-kosten niet als je tussen clouds beweegt (zo'n typische verrassing waar je niet aan denkt tot het $20.000 per maand kost).
Loont een commitment op H100 capacity in 2026?
Alleen kort (1 jaar of minder). Blackwell B100/B200 GPU's worden in 2026 breed beschikbaar en bieden 2–3x betere performance per dollar. Een 3-jaar H100-commitment loopt het risico dat je vastzit terwijl concurrenten op nieuwere hardware draaien tegen lagere kosten. Niet iets waar je in 2027 het gesprek met je CFO over wil voeren.
Hoe meet ik echte GPU-utilisatie (niet alleen "in use")?
Gebruik NVIDIA DCGM met Prometheus — kijk naar DCGM_FI_DEV_GPU_UTIL (compute) én DCGM_FI_DEV_MEM_COPY_UTIL (geheugenbandbreedte). Een GPU op 95% memory util maar 30% compute util is een teken dat je memory-bound bent en mogelijk een goedkopere GPU met meer geheugen kunt gebruiken (bijv. H200 in plaats van H100).
Conclusie
AI-kosten in de cloud zijn niet onvermijdelijk hoog. Door bewuste keuzes in accelerator (Trainium, Inferentia, L4 in plaats van H100), pricing-model (spot voor training, Savings Plans voor baseline inference), workload-optimalisatie (quantization, batching, distillation) en operationele discipline (tags, auto-shutdown, anomaly detection) realiseren teams in 2026 routinematig 50–70% besparingen.
Begin klein. Meet GPU-utilisatie met DCGM, identificeer de top-3 onderbenutte resources, en pas één hefboom toe per sprint. Binnen één kwartaal is een halvering van je AI-rekening volstrekt realistisch — en je hoeft er geen herstructurering voor te starten.