ViAdverNLI Dashboard

Vietnamese Adversarial Natural Language Inference Benchmark

21,262 samples

3 rounds

SOTA: 58.15%

Adversarial

Adversarial Fact-Checking Analysis

Comprehensive analysis of Vietnamese adversarial NLI dataset and model performances

Mục tiêu Dự án

Xây dựng bộ dữ liệu đối kháng tiếng Việt cho fact-checking, tạo ra các claim phức tạp để thử thách khả năng của mô hình AI.

Kết quả Đạt được

Tạo thành công 21,262 mẫu dữ liệu đối kháng chất lượng cao với 2/3 rounds đạt Fleiss' Kappa > 0.80 (đồng thuận xuất sắc).

So sánh với các Dataset NLI/Fact-checking Tiếng Việt

Vị trí của ViAdverNLI trong hệ sinh thái các bộ dữ liệu NLI và fact-checking tiếng Việt

Dataset	Mô tả	Số mẫu	Loại dữ liệu	Độ dài text	Phương pháp	SOTA Accuracy
ViAdverNLI (R1-R3) Adversarial 3 rounds	benchmark NLI adversarial	~21.3k cặp	premise/hypothesis	premise ~24 từ, hyp ~12-15 từ	human+model loop	~58% (SOTA)
ViNLI Baseline NLI	NLI corpus đầu tiên	>30k cặp	premise/hypothesis	premise ~24.5 từ, hyp ~18.1 từ	manual 5 annotator	~79% (SOTA)
ViWikiFC Wikipedia source	Wikipedia-based fact-checking	>20k cặp	claim + evidence	claim ~15-20 từ, evidence ~20-40 từ	manual FEVER style	~79% (SOTA)
ViFactCheck News articles	news fact-check benchmark	7,232 cặp	claim + evidence	claim ~12-15 từ, evidence ~30-50 từ	manual expert	~62% (SOTA)
ISE-DSC01 Largest dataset	competition dataset	~49.7k cặp	claim + context	claim ~10-20 từ, context ~50-100 từ	auto+manual	~84% (SOTA)

Đặc điểm Nổi bật của ViAdverNLI

Những yếu tố độc đáo khiến ViAdverNLI trở thành benchmark thử thách cho NLI tiếng Việt

⚡

Độ khó cao

Mô hình SOTA chỉ đạt ~58% accuracy, thấp hơn đáng kể so với các dataset khác (~79–84%)

Thử thách mô hình mạnh nhất

🔄

Quy trình adversarial 3 vòng

Duy nhất sử dụng human-and-model-in-the-loop để thu thập mẫu gây bẫy cho mô hình

Phương pháp độc đáo

🌐

Đa dạng ngôn ngữ

Tỷ lệ trùng từ thấp, nhiều cách diễn đạt khác biệt, bao gồm ẩn dụ, thay đổi chi tiết nhỏ

Linguistic diversity cao

📈

Giá trị huấn luyện

Khi huấn luyện trên ViAdverNLI, mô hình cải thiện hiệu quả tổng quát trên các dataset NLI khác

Cross-dataset improvement

🎯

Bổ sung khoảng trống

Cung cấp benchmark NLI adversarial cho tiếng Việt, mở hướng nghiên cứu robust NLI và fact-checking

Research gap filling

So sánh Độ khó qua SOTA Accuracy

ViAdverNLI là dataset khó nhất, thử thách khả năng suy luận của mô hình AI

🎯 ViAdverNLI: Thử thách khó nhất

• 58% SOTA accuracy - thấp nhất trong tất cả
• 26% gap so với dataset dễ nhất (ISE-DSC01: 84%)
• Adversarial design - gây khó cho mô hình SOTA
• Human-in-the-loop - claims được crafted để đánh lừa AI

📊 Ranking độ khó:

1. ViAdverNLI (58%) - Cực khó 🔴
2. ViFactCheck (62%) - Khó 🟡
3. ViNLI (79%) - Trung bình 🟢
4. ViWikiFC (79%) - Trung bình 🟢
5. ISE-DSC01 (84%) - Dễ 🟢

Quy trình Tạo Dữ liệu Đối kháng

Mỗi round sử dụng mô hình mạnh hơn để tạo claim đối kháng phức tạp hơn

Context Data Sources

Nguồn dữ liệu context được sử dụng làm nền tảng cho việc tạo adversarial claims

📚 Wikipedia tiếng Việt

• Các bài viết về khoa học, lịch sử, địa lý
• Thông tin chính xác, đáng tin cậy
• Đa dạng chủ đề và lĩnh vực
• Cấu trúc tốt, dễ trích xuất thông tin

📰 Báo chí Việt Nam

• VnExpress, Thanh Niên, Tuổi Trẻ
• Tin tức thời sự, kinh tế, xã hội
• Ngôn ngữ tự nhiên, gần gũi
• Phản ánh thực tế đời sống

🎯 Tiêu chí lựa chọn Context

• Độ dài: 50-500 từ

• Ngôn ngữ: Tiếng Việt chuẩn

• Nội dung: Có thông tin cụ thể

Chi tiết từng Round:

Cơ bản

mBERT

Dữ liệu huấn luyện:

ViNLI + ViWikiFC

Số mẫu: 5,347

Kappa: 0.8052

Nâng cao

PhoBERT

Dữ liệu huấn luyện:

ViNLI + ViWikiFC + ViFactCheck + ViA1

Số mẫu: 5,961

Kappa: 0.8138

Cao cấp

XLM-R

Dữ liệu huấn luyện:

ViNLI + ViWikiFC + ViFactCheck + ViA1 + ViA2 + ISE-DSC01

Số mẫu: 9,954

Kappa: 0.7539

Adversarial Claim Construction Rules

Systematic construction rules để ensure high-quality, challenging examples

📝 General Claim Construction Rules

Capitalize the first letter of sentences and end with proper punctuation
Ensure correct spelling and grammar with no extra whitespace
Use only numerical digits for dates, ages, statistics, and monetary values
Claims must be closely related to the context content and remain on-topic
Avoid excessive verbatim copying from context; only direct evidence citations are permitted

🚫 Additional Guidelines

Avoid creating claims unrelated to the topic
Avoid overusing simple transformations (only synonym replacement or negation)
Label priority order: REFUTED > NEI > SUPPORTED

ViAdverNLI R1

5,347 mẫu

SUPPORTED32.6%

REFUTED43.4%

NEI24%

Mô hình: mBERT

Fleiss' Kappa: 0.8052

ViAdverNLI R2

5,961 mẫu

SUPPORTED29.3%

REFUTED31.8%

NEI38.9%

Mô hình: PhoBERT

Fleiss' Kappa: 0.8138

ViAdverNLI R3

9,954 mẫu

SUPPORTED36.9%

REFUTED31.9%

NEI31.2%

Mô hình: XLM-R

Fleiss' Kappa: 0.7539

Built with Next.js, Tailwind CSS, and Recharts