ViAdverNLI Dashboard

Vietnamese Adversarial Natural Language Inference Benchmark

21,262 samples
3 rounds
SOTA: 58.15%
Adversarial
Adversarial Fact-Checking Analysis
Comprehensive analysis of Vietnamese adversarial NLI dataset and model performances
Mục tiêu Dự án

Xây dựng bộ dữ liệu đối kháng tiếng Việt cho fact-checking, tạo ra các claim phức tạp để thử thách khả năng của mô hình AI.

Kết quả Đạt được

Tạo thành công 21,262 mẫu dữ liệu đối kháng chất lượng cao với 2/3 rounds đạt Fleiss' Kappa > 0.80 (đồng thuận xuất sắc).

So sánh với các Dataset NLI/Fact-checking Tiếng Việt
Vị trí của ViAdverNLI trong hệ sinh thái các bộ dữ liệu NLI và fact-checking tiếng Việt
DatasetMô tảSố mẫuLoại dữ liệuĐộ dài textPhương phápSOTA Accuracy
ViAdverNLI (R1-R3)
Adversarial 3 rounds
benchmark NLI adversarial~21.3k cặppremise/hypothesispremise ~24 từ, hyp ~12-15 từhuman+model loop~58% (SOTA)
ViNLI
Baseline NLI
NLI corpus đầu tiên>30k cặppremise/hypothesispremise ~24.5 từ, hyp ~18.1 từmanual 5 annotator~79% (SOTA)
ViWikiFC
Wikipedia source
Wikipedia-based fact-checking>20k cặpclaim + evidenceclaim ~15-20 từ, evidence ~20-40 từmanual FEVER style~79% (SOTA)
ViFactCheck
News articles
news fact-check benchmark7,232 cặpclaim + evidenceclaim ~12-15 từ, evidence ~30-50 từmanual expert~62% (SOTA)
ISE-DSC01
Largest dataset
competition dataset~49.7k cặpclaim + contextclaim ~10-20 từ, context ~50-100 từauto+manual~84% (SOTA)
Đặc điểm Nổi bật của ViAdverNLI
Những yếu tố độc đáo khiến ViAdverNLI trở thành benchmark thử thách cho NLI tiếng Việt

Độ khó cao

Mô hình SOTA chỉ đạt ~58% accuracy, thấp hơn đáng kể so với các dataset khác (~79–84%)

Thử thách mô hình mạnh nhất
🔄

Quy trình adversarial 3 vòng

Duy nhất sử dụng human-and-model-in-the-loop để thu thập mẫu gây bẫy cho mô hình

Phương pháp độc đáo
🌐

Đa dạng ngôn ngữ

Tỷ lệ trùng từ thấp, nhiều cách diễn đạt khác biệt, bao gồm ẩn dụ, thay đổi chi tiết nhỏ

Linguistic diversity cao
📈

Giá trị huấn luyện

Khi huấn luyện trên ViAdverNLI, mô hình cải thiện hiệu quả tổng quát trên các dataset NLI khác

Cross-dataset improvement
🎯

Bổ sung khoảng trống

Cung cấp benchmark NLI adversarial cho tiếng Việt, mở hướng nghiên cứu robust NLI và fact-checking

Research gap filling
So sánh Độ khó qua SOTA Accuracy
ViAdverNLI là dataset khó nhất, thử thách khả năng suy luận của mô hình AI

🎯 ViAdverNLI: Thử thách khó nhất

  • 58% SOTA accuracy - thấp nhất trong tất cả
  • 26% gap so với dataset dễ nhất (ISE-DSC01: 84%)
  • Adversarial design - gây khó cho mô hình SOTA
  • Human-in-the-loop - claims được crafted để đánh lừa AI

📊 Ranking độ khó:

  1. 1. ViAdverNLI (58%) - Cực khó 🔴
  2. 2. ViFactCheck (62%) - Khó 🟡
  3. 3. ViNLI (79%) - Trung bình 🟢
  4. 4. ViWikiFC (79%) - Trung bình 🟢
  5. 5. ISE-DSC01 (84%) - Dễ 🟢
Quy trình Tạo Dữ liệu Đối kháng
Mỗi round sử dụng mô hình mạnh hơn để tạo claim đối kháng phức tạp hơn
ViAdverNLI Data Pipeline
Context Data Sources
Nguồn dữ liệu context được sử dụng làm nền tảng cho việc tạo adversarial claims

📚 Wikipedia tiếng Việt

  • • Các bài viết về khoa học, lịch sử, địa lý
  • • Thông tin chính xác, đáng tin cậy
  • • Đa dạng chủ đề và lĩnh vực
  • • Cấu trúc tốt, dễ trích xuất thông tin

📰 Báo chí Việt Nam

  • • VnExpress, Thanh Niên, Tuổi Trẻ
  • • Tin tức thời sự, kinh tế, xã hội
  • • Ngôn ngữ tự nhiên, gần gũi
  • • Phản ánh thực tế đời sống

🎯 Tiêu chí lựa chọn Context

• Độ dài: 50-500 từ
• Ngôn ngữ: Tiếng Việt chuẩn
• Nội dung: Có thông tin cụ thể

Chi tiết từng Round:

R1
Cơ bản
mBERT

Dữ liệu huấn luyện:

ViNLI + ViWikiFC

Số mẫu: 5,347

Kappa: 0.8052

R2
Nâng cao
PhoBERT

Dữ liệu huấn luyện:

ViNLI + ViWikiFC + ViFactCheck + ViA1

Số mẫu: 5,961

Kappa: 0.8138

R3
Cao cấp
XLM-R

Dữ liệu huấn luyện:

ViNLI + ViWikiFC + ViFactCheck + ViA1 + ViA2 + ISE-DSC01

Số mẫu: 9,954

Kappa: 0.7539

Adversarial Claim Construction Rules
Systematic construction rules để ensure high-quality, challenging examples

📝 General Claim Construction Rules

  • Capitalize the first letter of sentences and end with proper punctuation
  • Ensure correct spelling and grammar with no extra whitespace
  • Use only numerical digits for dates, ages, statistics, and monetary values
  • Claims must be closely related to the context content and remain on-topic
  • Avoid excessive verbatim copying from context; only direct evidence citations are permitted

🚫 Additional Guidelines

  • Avoid creating claims unrelated to the topic
  • Avoid overusing simple transformations (only synonym replacement or negation)
  • Label priority order: REFUTED > NEI > SUPPORTED
ViAdverNLI R1
5,347 mẫu
SUPPORTED32.6%
REFUTED43.4%
NEI24%

Mô hình: mBERT

Fleiss' Kappa: 0.8052

ViAdverNLI R2
5,961 mẫu
SUPPORTED29.3%
REFUTED31.8%
NEI38.9%

Mô hình: PhoBERT

Fleiss' Kappa: 0.8138

ViAdverNLI R3
9,954 mẫu
SUPPORTED36.9%
REFUTED31.9%
NEI31.2%

Mô hình: XLM-R

Fleiss' Kappa: 0.7539

© 2025 ViAdverNLI Research Team • University of Information Technology

Built with Next.js, Tailwind CSS, and Recharts