ViAdverNLI Dashboard

Phân tích toàn diện bộ dữ liệu Fact-checking & Suy luận ngôn ngữ tự nhiên đối kháng tiếng Việt

21,262 mẫu dữ liệu
3 Rounds đối kháng
7 Datasets đánh giá
Kappa > 0.80

🏆 Bộ dữ liệu thử thách khó nhất cho NLI tiếng Việt • 🎯 SOTA chỉ đạt 58% accuracy

Mục tiêu Dự án

Xây dựng bộ dữ liệu đối kháng tiếng Việt cho fact-checking, tạo ra các claim phức tạp để thử thách khả năng của mô hình AI.

Phương pháp Đối kháng

Sử dụng 3 rounds với mô hình ngày càng mạnh (mBERT → PhoBERT → XLM-R) để tạo dữ liệu có độ khó tăng dần.

Kết quả Đạt được

Tạo thành công 21,262 mẫu dữ liệu đối kháng chất lượng cao với Fleiss' Kappa > 0.80 (đồng thuận xuất sắc).

So sánh với các Dataset NLI/Fact-checking Tiếng Việt
Vị trí của ViAdverNLI trong hệ sinh thái các bộ dữ liệu NLI và fact-checking tiếng Việt
DatasetMô tảSố mẫuLoại dữ liệuĐộ dài textPhương phápSOTA Accuracy
ViAdverNLI (R1-R3)
Adversarial 3 rounds
benchmark NLI adversarial~21.3k cặppremise/hypothesispremise ~24 từ, hyp ~12-15 từhuman+model loop~58% (SOTA)
ViNLI
Baseline NLI
NLI corpus đầu tiên>30k cặppremise/hypothesispremise ~24.5 từ, hyp ~18.1 từmanual 5 annotator~79% (SOTA)
ViWikiFC
Wikipedia source
Wikipedia-based fact-checking>20k cặpclaim + evidenceclaim ~15-20 từ, evidence ~20-40 từmanual FEVER style~79% (SOTA)
ViFactCheck
News articles
news fact-check benchmark7,232 cặpclaim + evidenceclaim ~12-15 từ, evidence ~30-50 từmanual expert~62% (SOTA)
ISE-DSC01
Largest dataset
competition dataset~49.7k cặpclaim + contextclaim ~10-20 từ, context ~50-100 từauto+manual~84% (SOTA)
Đặc điểm Nổi bật của ViAdverNLI
Những yếu tố độc đáo khiến ViAdverNLI trở thành benchmark thử thách cho NLI tiếng Việt

Độ khó cao

Mô hình SOTA chỉ đạt ~58% accuracy, thấp hơn đáng kể so với các dataset khác (~79–84%)

Thử thách mô hình mạnh nhất
🔄

Quy trình adversarial 3 vòng

Duy nhất sử dụng human-and-model-in-the-loop để thu thập mẫu gây bẫy cho mô hình

Phương pháp độc đáo
🌐

Đa dạng ngôn ngữ

Tỷ lệ trùng từ thấp, nhiều cách diễn đạt khác biệt, bao gồm ẩn dụ, thay đổi chi tiết nhỏ

Linguistic diversity cao
📈

Giá trị huấn luyện

Khi huấn luyện trên ViAdverNLI, mô hình cải thiện hiệu quả tổng quát trên các dataset NLI khác

Cross-dataset improvement
🎯

Bổ sung khoảng trống

Cung cấp benchmark NLI adversarial cho tiếng Việt, mở hướng nghiên cứu robust NLI và fact-checking

Research gap filling
So sánh Độ khó qua SOTA Accuracy
ViAdverNLI là dataset khó nhất, thử thách khả năng suy luận của mô hình AI

🎯 ViAdverNLI: Thử thách khó nhất

  • 58% SOTA accuracy - thấp nhất trong tất cả
  • 26% gap so với dataset dễ nhất (ISE-DSC01: 84%)
  • Adversarial design - gây khó cho mô hình SOTA
  • Human-in-the-loop - claims được crafted để đánh lừa AI

📊 Ranking độ khó:

  1. 1. ViAdverNLI (58%) - Cực khó 🔴
  2. 2. ViFactCheck (62%) - Khó 🟡
  3. 3. ViNLI (79%) - Trung bình 🟢
  4. 4. ViWikiFC (79%) - Trung bình 🟢
  5. 5. ISE-DSC01 (84%) - Dễ 🟢
Quy trình Tạo Dữ liệu Đối kháng
Mỗi round sử dụng mô hình mạnh hơn để tạo claim đối kháng phức tạp hơn
R1
Cơ bản
mBERT

Dữ liệu huấn luyện:

ViNLI + ViWikiFC

Số mẫu: 5,347

Kappa: 0.8097

R2
Nâng cao
PhoBERT

Dữ liệu huấn luyện:

ViNLI + ViWikiFC + ViFactCheck + ViA1

Số mẫu: 5,961

Kappa: 0.8099

R3
Cao cấp
XLM-R

Dữ liệu huấn luyện:

ViNLI + ViWikiFC + ViFactCheck + ViA1 + ViA2 + ISE-DSC01

Số mẫu: 9,954

Kappa: 0.8099