โครงสร้างเกณฑ์มาตรฐาน
TRAG Benchmark ประกอบด้วยชุดทดสอบ 56 กรณี แบ่งเป็น 8 หมวดหมู่ และ 7 สถานการณ์ที่แตกต่างกันแต่ละกรณีทดสอบประกอบด้วยคำถามของผู้ใช้และเอกสารบริบทที่เกี่ยวข้อง โดยมีการกระจายตัวของชุดทดสอบดังนี้
หมวดหมู่
- สายการบิน – นโยบายและขั้นตอนต่างๆ ของสายการบิน เช่น การจองที่นั่ง การกำหนดราคาตั๋ว กำหนดเวลาสิ้นสุดโปรโมชัน
- ยานยนต์ – ความรู้เกี่ยวกับยานยนต์ เช่น อุปกรณ์เสริมรถยนต์ ความสามารถในการรับน้ำหนัก โปรโมชันปัจจุบัน
- ธนาคาร – ความรู้ด้านธนาคาร เช่น เอกสารที่จำเป็นสำหรับการปิดบัญชีหรือการมอบอำนาจ ขั้นตอนการปิดบัญชีออมทรัพย์และการเปิดบัญชีใหม่
- การบริหารลูกค้าสัมพันธ์ – ความรู้เกี่ยวกับสมาชิก เช่น วิธีการสมัคร การตรวจสอบคะแนน การใช้คะแนน และการคำนวณคะแนนสะสม
- การดูแลสุขภาพ – ความรู้ทางการแพทย์ เช่น การดูแลทันตกรรมสำหรับผู้ป่วย และยารักษาโรคความดันโลหิตสูง
- ทรัพยากรบุคคล – สวัสดิการด้านการรักษาพยาบาลของพนักงาน รวมถึงความคุ้มครองประกัน นโยบายการเบิกจ่าย และรายชื่อสถานพยาบาลที่กำหนด
- อุปกรณ์ไอที – คำถามจากผู้ใช้ รวมถึงโทรศัพท์มือถือที่มีกล้องคุณภาพดี และการเปรียบเทียบระหว่างสมาร์ทโฟน
- การสนับสนุนด้านเทคนิค – การตั้งค่า LAN การกู้คืนรหัสผ่าน และการตั้งค่าเราเตอร์ WiFi
สถานการณ์ทดสอบ
TRAG Benchmark ประกอบด้วย 7 สถานการณ์ที่แตกต่างกัน โดยพิจารณาจากปัจจัยสำคัญ 3 ประการ:
- 1. ประเภทของคำถาม: การถาม-ตอบแบบครั้งเดียว: คำถามพื้นฐานที่สามารถตอบได้ในครั้งเดียว, คำถามต่อเนื่อง: คำถามเชิงลึกที่มีประวัติการสนทนาประกอบ
- 2. ภาษาของเอกสารบริบท:
ภาษาอังกฤษ
ภาษาไทย
ไม่มีเอกสารบริบท (โดยเจตนา) - 3. ความพร้อมของข้อมูล:
มีข้อมูลพร้อม: มีข้อมูลที่จำเป็นสำหรับการสร้างคำตอบ
ไม่มีข้อมูลพร้อม: ไม่มีข้อมูลที่จำเป็น แต่คำตอบควรสอดคล้องกับโจทย์ที่กำหนด