Phương pháp dự đoán
Hybrid Stats + AI — minh bạch hoàn toàn, mọi công thức + data + backtest đều công khai.
🎯 Giải thích đơn giản (cho mọi người)
Hãy tưởng tượng dự đoán mỗi trận giống như hỏi ý kiến một hội đồng chuyên gia:
- 3 "chuyên gia máy tính" phân tích gần 48.000 trận đấu trong lịch sử để chấm điểm: đội nào mạnh hơn, ai hay ghi bàn, châu lục nào thường đá tốt ở World Cup.
- Tổng hợp ý kiến 3 chuyên gia đó thành một con số gốc (đội A thắng bao nhiêu %).
- Xét điều kiện sân bãi: trời nóng hay mát, sân ở vùng núi cao không (ảnh hưởng thể lực cầu thủ).
- "Chuyên gia AI" xem thêm tình hình mới nhất — phong độ, chấn thương, đội hình — rồi chỉnh con số gốc cho hợp lý, nhưng không được chỉnh quá tay (tối đa ±15%) để tránh phán bừa.
Kết quả: xác suất thắng/hòa/thua + tỉ số dự đoán + phân tích bằng tiếng Việt. Mọi con số đều dựa trên dữ liệu thật, không phải "phán đại". Phần bên dưới giải thích chi tiết từng bước.
Pipeline tổng quan
Mỗi trận đi qua 6 layer: 3 mô hình thống kê → aggregator → tầng điều kiện & bối cảnh → AI Chuyên gia bóng đá → kết quả cuối.
Backtest WC2018 + WC2022 (kiểm chứng không gian lận)
💡 Nói đơn giản: Để chứng minh không "chém gió", bọn mình bắt hệ thống dự đoán lại 2 kỳ World Cup gần nhất (2018 & 2022), chỉ cho nó dùng dữ liệu có trước mỗi trận. Kết quả đoán đúng ~55,5% — cao hơn hẳn đoán mò.
Rebuild Elo + Poisson chỉ với data TRƯỚC mỗi trận, predict 128 trận của 2 kỳ WC gần nhất.
1. Elo Rating — điểm sức mạnh đội (35%)
💡 Nói đơn giản: Giống điểm xếp hạng trong cờ vua hay game online. Mỗi đội có một số điểm sức mạnh; thắng đội mạnh được cộng nhiều, thua đội yếu bị trừ nhiều, thắng đậm cộng thêm. Đội chủ nhà được cộng điểm lợi thế sân nhà.
FIFA-style Elo update sau mỗi trận của 47.980 trận quốc tế 1872-2025. K-factor theo mức độ quan trọng giải đấu.
2. Poisson — mô hình ghi bàn (35%)
💡 Nói đơn giản: Dựa trên việc mỗi đội thường ghi và thủng bao nhiêu bàn, mô hình tính ra tỉ số nào dễ xảy ra nhất (vd 2-0, 1-1...) và khả năng thắng/hòa/thua. Đội tấn công mạnh gặp đội thủ yếu → kỳ vọng ghi nhiều bàn.
Cho mỗi đội, fit attack (α) và defense (δ) strength so với mean toàn cầu. λ = expected goals.
3. Sức mạnh theo châu lục (20%)
💡 Nói đơn giản: Lịch sử World Cup cho thấy các châu lục không ngang nhau — đội châu Âu, Nam Mỹ thường đá tốt hơn đội châu Á, châu Phi, Bắc Mỹ ở các vòng tương ứng. Mô hình phản ánh đúng thực tế đó thay vì coi mọi đội như nhau.
Lịch sử WC cho thấy các liên đoàn không bình đẳng tại WC. Matrix trích từ 1.069 trận WC 1930-2022.
4. "Chất World Cup" — WCOI (10%)
💡 Nói đơn giản: Có đội cứ tới World Cup là "lên đồng", đá hay hơn ngày thường (Argentina, Đức, Croatia); ngược lại có đội hay gây thất vọng ở sân chơi lớn (Iran, Hàn Quốc, Ả Rập Xê Út). Chỉ số này thưởng/phạt theo thói quen đó.
Đo: 1 đội có "đá hay hơn bình thường" khi vào WC không?
- Overperformers: Argentina (+0.11), Croatia (+0.05), Đức (+0.05) — đá hay hơn lúc vào WC
- Underperformers: Iran (-0.41), Hàn Quốc (-0.36), Ả Rập Xê Út (-0.33), Mexico (-0.21) — AFC + Mexico knockout curse
5. Tầng điều kiện thi đấu (nhiệt độ & độ cao)
WC2026 đá tháng 6-7 ở Bắc Mỹ — nắng nóng giữa trưa và độ cao là yếu tố thật ảnh hưởng thể lực. Mỗi trận được tính bối cảnh môi trường từ sân thi đấu + giờ địa phương.
- Nhiệt độ cảm nhận lúc đá = nhiệt độ điển hình của sân (tháng 6-7) điều chỉnh theo khung giờ (giữa trưa nóng nhất, tối mát ~−6°C) + bù độ ẩm. Sân có mái che/điều hòa → môi trường kiểm soát ~22°C.
- Heat-stress: Thấp / Trung bình / Cao / Khắc nghiệt — nóng bào mòn thể lực, lợi cho đội đá chậm kiểm soát.
- Độ cao: ≥1.200m ảnh hưởng đáng kể, ≥2.000m (Mexico City 2.240m) ảnh hưởng mạnh — lợi cho đội quen độ cao, đối thủ dễ đuối hiệp 2.
6. Tầng AI — Chuyên gia bóng đá làm Bayesian Updater
Stats baseline là điểm neo. AI nhận thêm điều kiện thi đấu (mục 5) + bối cảnh hiện tại (đội hình, phong độ 2025-26, chấn thương) và được constraint chỉ adjust ±15% trừ khi có lý do định tính rõ ràng (max ±25%).
- No constraint → AI hay overconfident, predict bừa (90%, 5%, 5%)
- Too tight (±5%) → AI thành no-op, chỉ copy stats
- ±15% sweet spot → giữ statistical rigor + thêm qualitative (nhiệt độ/độ cao, form 2025, chấn thương, motivation, tactical)