เปิดตัว TRAG Benchmark: มาตรฐานใหม่สำหรับการประเมิน LLMs ในภาษาไทย
เรายินดีอย่างยิ่งที่จะแนะนำแพลตฟอร์มใหม่สำหรับการประเมินผลศักยภาพของโมเดลภาษาใหญ่ (LLM) ในการทำความเข้าใจและสร้างการตอบสนองที่มีคุณภาพในภาษาไทย ชื่อว่า Thai Retrieval Augmented Generation (TRAG) Benchmark ซึ่งถือเป็นก้าวสำคัญในวงการ AI โดยมอบกรอบการประเมินที่แข็งแกร่งสำหรับการวัดประสิทธิภาพของ LLM ในหลายมิติและหมวดหมู่กรณีทดสอบ
ภาพรวมของ TRAG Benchmark
TRAG Benchmark ได้รับการพัฒนาขึ้นมาเพื่อประเมินความสามารถของ LLM ในการเข้าใจบริบทของเอกสารและสร้างคำตอบที่แม่นยำและเหมาะสมกับบริบทในภาษาไทย แพลตฟอร์มนี้ประกอบด้วยกรณีทดสอบทั้งหมด 56 กรณี แบ่งออกเป็น 8 หมวดหมู่หลัก และมี 7 ฉากทดสอบที่แตกต่างกัน โดยแต่ละกรณีทดสอบจะประกอบด้วยคำถามจากผู้ใช้และบริบทของเอกสารที่เกี่ยวข้อง เพื่อให้การประเมินครอบคลุมทุกด้านของความสามารถของโมเดล
หมวดหมู่และการทดสอบ
กรณีทดสอบถูกจัดประเภทไว้ในหมวดหมู่ต่อไปนี้:
สายการบิน: นโยบายและขั้นตอนเกี่ยวกับการจองที่นั่ง การตั้งราคาตั๋ว และกำหนดเวลาสิ้นสุดโปรโมชั่น
ตัวอย่างคำถามที่ใช้ทดสอบ:
- ขอเปลี่ยนวันเดินทางมีค่าใช้จ่ายเท่าไหร่คะ
- จองที่นั่งได้ไหม
ยานยนต์: ข้อมูลเกี่ยวกับอุปกรณ์เสริมของรถยนต์ ความจุการบรรทุก และโปรโมชั่นปัจจุบัน
ตัวอย่างคำถามที่ใช้ทดสอบ:
- มีตัวล็อกประตูไหมคะ
- ปุ่ม SOS อยู่ตรงไหน
ธนาคาร: ข้อมูลเกี่ยวกับเอกสารที่จำเป็นสำหรับการปิดบัญชี ขั้นตอนการมอบอำนาจ และการเปิดบัญชีใหม่
ตัวอย่างคำถามที่ใช้ทดสอบ:
- มอบอำนาจปิดบัญชีกระแสรายวัน ใช้เอกสารอะไรบ้าง
CRM: รายละเอียดการเป็นสมาชิก รวมถึงกระบวนการสมัคร การตรวจสอบคะแนน และการคำนวณรางวัล
ตัวอย่างคำถามที่ใช้ทดสอบ:
- เช็คคะแนนยังไง
การดูแลสุขภาพ: ความรู้ทางการแพทย์ เช่น การดูแลช่องปากและยาสำหรับความดันโลหิตสูง
ตัวอย่างคำถามที่ใช้ทดสอบ:
- การรักษาผู้ป่วยวัณโรค
- ยาที่ควรระวังในผู้ป่วยความดันโลหิตสูง
ทรัพยากรมนุษย์ (HR): สวัสดิการด้านการดูแลสุขภาพของพนักงาน ความคุ้มครองประกัน และนโยบายการเบิกจ่าย
ตัวอย่างคำถามที่ใช้ทดสอบ:
- ประกันสังคมใช้ไม่หมดยกไปปีหน้าได้หรือไม่
- ขอรายชื่อโรงพยาบาลหรือคลินิกทันตกรรมที่บริษัทกำหนด
อุปกรณ์ไอที: คำถามจากผู้ใช้เกี่ยวกับโทรศัพท์มือถือและการเปรียบเทียบสมาร์ทโฟน
ตัวอย่างคำถามที่ใช้ทดสอบ:
- แนะนำมือถือกล้องดีๆหน่อยครับ งบประมาณ 8000
- Tablet ราคาไม่เกินหมื่นมีรุ่นไหนบ้าง
การสนับสนุนทางเทคนิค: การตั้งค่า LAN การกู้รหัสผ่าน และการตั้งค่า WiFi Router
ตัวอย่างคำถามที่ใช้ทดสอบ:
- ไอดีกับรหัสผ่านดูตรงไหน
- จำรหัสผ่าน wifi ไม่ได้
การทดสอบถูกจัดประเภทตามปัจจัยสำคัญ 3 ประการ:
1. ประเภทของคำถาม: การตอบคำถามแบบครั้งเดียวและคำถามติดตามผล
2. ภาษาของบริบทเอกสาร: ภาษาอังกฤษ ภาษาไทย และบริบทที่ตั้งใจให้ว่าง
3. ความพร้อมของข้อมูล: ฉากที่ข้อมูลมีอยู่หรือไม่มีอยู่ ซึ่งต้องการให้โมเดลตอบสนองตามที่ถูกถาม
เกณฑ์การประเมิน
TRAG Benchmark ประเมินประสิทธิภาพของ LLM โดยอิงจาก:
- ความสอดคล้องกับข้อเท็จจริง: คำตอบต้องสอดคล้องกับบริบทของเอกสารที่ให้มา
- คุณภาพของภาษา: คำตอบควรเป็นภาษาไทย ไม่มีข้อผิดพลาดทางไวยากรณ์ และรักษาความสุภาพ
- รูปแบบ: คำตอบควรเป็นข้อความธรรมดาโดยไม่มีการจัดรูปแบบพิเศษ
- ความเร็วในการตอบสนอง: โมเดลต้องสร้างคำตอบภายใน 15 วินาที
การให้คะแนนและผลลัพธ์
TRAG Benchmark ใช้กระบวนการให้คะแนนสองขั้นตอน:
1. การให้คะแนนทั่วไปของ LLM: LLM ขั้นสูง GPT-4-2024-05-13 จะประเมินคุณภาพของคำตอบตามเกณฑ์ที่กล่าวมา
2. การจัดหมวดหมู่คำตอบที่ตอบได้: GPT-4-0613 จะจำแนกคำตอบเพื่อดูว่าโมเดลใช้เอกสารที่ให้มาเพื่อตอบคำถามหรือไม่
TRAG Benchmark มีการจัดอันดับประสิทธิภาพของ LLM ต่างๆ ซึ่งจะอัปเดตเป็นประจำเมื่อมีการประเมินโมเดลใหม่
เข้าร่วมกับเราในการพัฒนา AI ภาษาไทย
เราขอเชิญนักวิจัยและนักพัฒนามาใช้ TRAG Benchmark เพื่อประเมินและเปรียบเทียบประสิทธิภาพของโมเดลของพวกเขา การเข้าร่วมนี้จะช่วยขับเคลื่อนเทคโนโลยี AI ภาษาไทยไปข้างหน้า ช่วยปรับปรุงและนวัตกรรมโซลูชัน AI
สำรวจ AI แนวหน้าในภาษาไทยกับ TRAG Benchmark และเข้าร่วมกับเราในการขับเคลื่อนอนาคตของเทคโนโลยี AI
สำหรับข้อมูลเพิ่มเติมและการเริ่มต้นใช้งาน TRAG Benchmark เยี่ยมชมเว็บไซต์ของเรา