Thai Retrieval Augmented Generation (TRAG) Benchmark
ในโลกที่เทคโนโลยีปัญญาประดิษฐ์ (AI) กำลังพัฒนาอย่างรวดเร็ว เกณฑ์มาตรฐานในการสร้างภาษาไทย (Thai Retrieval Augmented Generation Benchmark) หรือ TRAG ถือเป็นเครื่องมือที่ล้ำสมัยที่ถูกออกแบบมาเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) ในการเข้าใจและสร้างการตอบสนองที่คล้ายคลึงกับมนุษย์ในภาษาไทย
เกณฑ์มาตรฐานนี้มีความสำคัญอย่างยิ่งในการพัฒนาเทคโนโลยี AI ที่เหมาะสมกับภาษาไทย เพื่อให้มั่นใจว่าโมเดลสามารถจัดการกับความท้าทายด้านภาษาที่ไม่เหมือนใครและความท้าทายเชิงบริบทที่ภาษาไทยนำเสนอได้
วัตถุประสงค์ของเกณฑ์มาตรฐาน TRAG
วัตถุประสงค์หลักของเกณฑ์มาตรฐาน TRAG คือการสร้างกรอบมาตรฐานสำหรับการประเมินความสามารถของ LLM ในการประมวลผลและสร้างเนื้อหาภาษาไทย โดยมุ่งเน้นไปที่ข้อมูลคำถาม-คำตอบจากหลากหลายอุตสาหกรรม เกณฑ์มาตรฐานนี้จำลองสถานการณ์จริงที่การตอบสนองที่ถูกต้องและเหมาะสมตามบริบทเป็นสิ่งสำคัญ ซึ่งช่วยในการระบุจุดแข็งและจุดอ่อนของโมเดลต่าง ๆ และชี้นำการปรับปรุงและนวัตกรรมเพิ่มเติมใน AI ภาษาไทย
วิธีการทดสอบของ TRAG
เกณฑ์มาตรฐาน TRAG ใช้วิธีการทดสอบที่เข้มงวดโดยใช้ข้อมูลคำถาม-คำตอบจากองค์กรที่สังเคราะห์จากหลากหลายอุตสาหกรรม เช่น สายการบิน ยานยนต์ ธนาคาร การดูแลสุขภาพ และอื่น ๆ ข้อมูลทดสอบประกอบด้วยสองส่วนหลัก:
- คำถาม: คำถามที่ผู้ใช้อาจถามในสถานการณ์จริง
- บริบทเอกสาร: ข้อมูลที่จำเป็นต้องใช้ในการตอบคำถามอย่างถูกต้อง
การสร้างคำตอบจะใช้การรวมข้อมูลทั้งสองนี้เข้ากับคำสั่งมาตรฐาน เนื่องจากการจัดการกับคำสั่งแตกต่างกันไปในแต่ละตระกูลโมเดล สองคำสั่งมาตรฐานจะถูกใช้ในการประเมินแต่ละโมเดล และผลคะแนนรวมที่สูงกว่าจะถูกนำมาใช้เป็นคะแนนอย่างเป็นทางการของโมเดลนั้น คำตอบที่สร้างขึ้นจะได้รับการประเมินตามเกณฑ์ที่กำหนดไว้ล่วงหน้า
เกณฑ์การประเมินของ TRAG
เกณฑ์การให้คะแนนของ TRAG ถูกออกแบบมาเพื่อให้มั่นใจว่าการประเมินโมเดลเป็นไปอย่างครอบคลุม เกณฑ์เหล่านี้รวมถึง:
ความถูกต้องของคำตอบที่ตอบได้
ตัวชี้วัดนี้วัดเปอร์เซ็นต์ของคำถามที่โมเดลสามารถตอบได้อย่างถูกต้อง มันสะท้อนความสามารถของโมเดลในการเข้าใจคำถามและดึงข้อมูลที่ถูกต้องจากบริบทที่ให้มา ความถูกต้องของคำถามที่ตอบได้จะถูกประมวลผลโดยชุด LLM ที่เป็นกลางชุดหนึ่งที่ใช้คำสั่งที่กำหนดไว้ต่างกันเพื่อตัดสินว่าคำตอบนั้นถูกต้องหรือไม่
ความถูกต้องของคำถามที่ตอบไม่ได้
ตัวชี้วัดนี้ประเมินความสามารถของโมเดลในการตอบคำถามที่ไม่มีคำตอบในระบบตามบริบทที่ให้มาอย่างถูกต้องว่า "ขอโทษค่ะ ฉันไม่ทราบ" ซึ่งสำคัญมากในการประเมินความสามารถของโมเดลในการรับรู้เมื่อไม่มีข้อมูลเพียงพอที่จะให้คำตอบที่ถูกต้อง ความถูกต้องของคำถามที่ตอบไม่ได้จะถูกประมวลผลโดยชุด LLM ที่เป็นกลางชุดหนึ่งที่ใช้คำสั่งที่กำหนดไว้ต่างกัน
เกณฑ์การวิเคราะห์ LLM
ได้รับแรงบันดาลใจจากงานวิจัย "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" เกณฑ์นี้ใช้ GPT-4 ในการทำหน้าที่เป็นผู้ตัดสินที่เป็นกลาง การตัดสิน LLM จะประเมินคำตอบตามเกณฑ์ย่อยดังนี้:
- ความถูกต้อง & ความเป็นประโยชน์: ประเมินว่าคำตอบนั้นถูกต้องตามข้อเท็จจริงและมีประโยชน์ต่อผู้ใช้หรือไม่
- การแปลและไวยากรณ์: ประเมินความถูกต้องของไวยากรณ์ในคำตอบภาษาไทย เพื่อให้มั่นใจว่าภาษาที่ใช้นั้นถูกต้องและเหมาะสม
- ข้อกำหนดเพิ่มเติม: ทดสอบความสามารถในการควบคุมคำสั่งโดยการเพิ่มข้อกำหนดเฉพาะ เช่น การตอบด้วยคำว่า "ค่ะ" และการเรียกตนเองด้วยชื่อที่กำหนด
การตัดสิน LLM จะให้คะแนนตามเกณฑ์เหล่านี้ ซึ่งจะถูกใช้เป็นคะแนนสุดท้ายสำหรับโมเดล การประเมินที่ครอบคลุมนี้ทำให้มั่นใจว่าโมเดลไม่เพียงแต่มีความถูกต้อง แต่ยังเหมาะสมกับบริบทและภาษาด้วย
เวลาตอบสนองรวม
อีกมิติหนึ่งที่เป็นตัววัดสำคัญเลยคือ เวลาตอบสนองรวม ซึ่งเป็นเวลาที่โมเดลใช้ในการตอบสนองทั้งหมด (ไม่ใช่แค่เวลาที่ใช้ในการสร้างโทเคนแรก) ตัวชี้วัดนี้มีความสำคัญในการประเมินประสิทธิภาพและการปฏิบัติจริงของโมเดลในแอปพลิเคชันในโลกแห่งความเป็นจริง
ผลลัพธ์ของการประเมิน
ความถูกต้องของคำถามที่ตอบได้
ตัวอย่างคำตอบที่ดี:
Q: การดูแลผู้ป่วยเบาหวานในการรักษาทางทันตกรรมต้องทำอย่างไร?
บริบทเอกสาร: <แนวทางการดูแลผู้ป่วยเบาหวานในคลินิกทันตกรรม>
A: สำหรับการดูแลผู้ป่วยเบาหวานในการรักษาทางทันตกรรม มีข้อควรระวังและแนวทางปฏิบัติดังนี้:
- ควรตรวจสอบระดับน้ำตาลในเลือดของผู้ป่วยก่อนการรักษา หากระดับน้ำตาลสูงเกินไป อาจต้องเลื่อนการรักษาออกไปจนกว่าจะควบคุมได้ดีขึ้น
- นัดหมายผู้ป่วยในช่วงเช้าหลังอาหารเช้า เนื่องจากระดับน้ำตาลในเลือดมักจะคงที่ที่สุดในช่วงนี้
- แนะนำให้ผู้ป่วยรับประทานอาหารและใช้ยาตามปกติก่อนมาพบทันตแพทย์ เพื่อป้องกันภาวะน้ำตาลในเลือดต่ำ
- หลีกเลี่ยงการใช้ยาชาที่มีส่วนผสมของอีพิเนฟรินในปริมาณมาก เพราะอาจทำให้ระดับน้ำตาลในเลือดสูงขึ้น
- ระมัดระวังเป็นพิเศษในการรักษาแผลในช่องปาก เนื่องจากผู้ป่วยเบาหวานมักมีการหายของแผลช้ากว่าปกติ
- แนะนำการดูแลสุขภาพช่องปากที่ดี เพราะผู้ป่วยเบาหวานมีความเสี่ยงสูงต่อการเกิดโรคปริทันต์และฟันผุ
- หากจำเป็นต้องให้ยาปฏิชีวนะ ควรเลือกชนิดที่ไม่ส่งผลกระทบต่อระดับน้ำตาลในเลือด
- สังเกตอาการของภาวะน้ำตาลในเลือดต่ำระหว่างการรักษา เช่น เหงื่อออก ใจสั่น หน้ามืด หากพบอาการเหล่านี้ ควรหยุดการรักษาและให้ผู้ป่วยรับประทานอาหารหรือเครื่องดื่มที่มีน้ำตาลทันที
- ในกรณีที่ต้องทำการรักษาที่ซับซ้อนหรือใช้เวลานาน อาจต้องปรึกษาแพทย์ผู้ดูแลผู้ป่วยเบาหวานเพื่อวางแผนการรักษาร่วมกัน
หวังว่าข้อมูลนี้จะเป็นประโยชน์สำหรับการดูแลผู้ป่วยเบาหวานในการรักษาทางทันตกรรม หากมีคำถามเพิ่มเติม สามารถสอบถามได้ค่ะ
ตัวอย่างคำตอบที่ไม่ดี
(ข้อมูลผิดจากเอกสารที่ให้มา):
Q: ถ้าเที่ยวบินล่าช้า จะได้รับการชดเชยอย่างไรบ้างคะ?
บริบทเอกสาร: <ข้อมูลเกี่ยวกับการชดเชยเมื่อเที่ยวบินล่าช้า>
A: ตามข้อมูลที่มีอยู่ กรณีเที่ยวบินล่าช้า ทางสายการบินจะมีการชดเชยให้ผู้โดยสาร แต่ขึ้นอยู่กับระยะเวลาที่ล่าช้าและสาเหตุของความล่าช้า โดยทั่วไปถ้าล่าช้าไม่เกิน 2 ชั่วโมง ทางสายการบินจะไม่มีการชดเชยใด ๆ หากล่าช้าเกิน 2 ชั่วโมงแต่ไม่เกิน 4 ชั่วโมง อาจจะมีการแจกน้ำดื่มให้ผู้โดยสาร ส่วนกรณีล่าช้าเกิน 4 ชั่วโมง ทางสายการบินอาจพิจารณาให้คูปองอาหารมูลค่าไม่เกิน 100 บาท แต่แนะนำให้ติดต่อเจ้าหน้าที่สายการบินโดยตรงเพื่อสอบถามรายละเอียดเพิ่มเติม เนื่องจากแต่ละสายการบินอาจมีนโยบายที่แตกต่างกันไป
ผู้โดยสารควรติดต่อเจ้าหน้าที่สายการบินทันทีเมื่อทราบว่าเที่ยวบินล่าช้า และเก็บหลักฐานต่าง ๆ ไว้ เช่น ใบเสร็จค่าอาหารหรือที่พัก หากต้องสำรองจ่ายไปก่อน นอกจากนี้ แต่ละสายการบินอาจมีนโยบายการชดเชยที่แตกต่างกัน จึงควรตรวจสอบเงื่อนไขของสายการบินที่ใช้บริการโดยตรง
ความถูกต้องของคำถามที่ตอบไม่ได้
ตัวชี้วัดนี้เน้นความสามารถของโมเดลในการรับรู้เมื่อไม่มีข้อมูลเพียงพอที่จะให้คำตอบที่ถูกต้อง โมเดลที่ทำงานได้ดีในด้านนี้สามารถหลีกเลี่ยงการสร้างคำตอบที่ไม่มีข้อเท็จจริงและให้การตอบสนองที่เหมาะสม เช่น "ขอโทษค่ะ ฉันไม่ทราบ" ซึ่งมีความสำคัญในการรักษาความน่าเชื่อถือและความไว้วางใจในโมเดล
ตัวอย่างคำตอบที่ดี:
Q: รถรุ่นนี้มีระบบเบรก ABS หรือไม่คะ?
บริบทเอกสาร: <ไม่มีการให้บริบท>
A: ขอโทษค่ะ ในข้อมูลที่มีอยู่ไม่มีรายละเอียดเกี่ยวกับระบบเบรก ABS ของรถรุ่นนี้ ดังนั้นฉันไม่สามารถยืนยันได้ว่ารถรุ่นนี้มีระบบเบรก ABS หรือไม่ หากคุณต้องการทราบข้อมูลเฉพาะเกี่ยวกับระบบความปลอดภัยของรถรุ่นนี้ ฉันแนะนำให้สอบถามจากตัวแทนจำหน่ายหรือดูข้อมูลจากเว็บไซต์ทางการของบริษัทผู้ผลิตรถยนต์โดยตรงค่ะ หากคุณมีคำถามอื่น ๆ เกี่ยวกับรถยนต์ ฉันยินดีช่วยตอบคำถามเท่าที่ข้อมูลที่มีอยู่ค่ะ
ตัวอย่างคำตอบที่ไม่ดี:
Q: ประกันสุขภาพเบิกโรงพยาบาลไหนได้บ้างคะ?
บริบทเอกสาร: <ไม่มีการให้บริบท>
A: ขอขอบคุณสำหรับคำถามของคุณค่ะ ดิฉันสามารถให้รายชื่อโรงพยาบาลเอกชนที่บริษัทกำหนดในกรุงเทพมหานครและปริมณฑลดังนี้ค่ะ: … <รายชื่อโรงพยาบาล>
การประเมินของ LLM
การตัดสิน LLM ให้การประเมินที่ละเอียดอ่อนของการตอบสนองของโมเดล โดยพิจารณาความถูกต้อง ความเป็นประโยชน์ คุณภาพการแปล และการปฏิบัติตามข้อกำหนดเฉพาะ คะแนนสูงในด้านนี้บ่งชี้ว่าโมเดลไม่เพียงแต่ให้ข้อมูลที่ถูกต้อง แต่ยังสื่อสารได้อย่างมีประสิทธิภาพและเหมาะสมในภาษาไทย
ตัวอย่างคำตอบที่ดี:
Q: มอบอำนาจปิดบัญชีกระแสรายวันใช้เอกสารอะไรบ้าง?
A: สามารถมอบอำนาจให้ผู้อื่นปิดบัญชีกระแสรายวันได้ค่ะ เอกสารที่ต้องใช้มีดังนี้:
- เอกสารมอบอำนาจ
- สมุดบัญชีธนาคาร
- บัตรประชาชนของผู้มอบอำนาจ (เจ้าของบัญชี) พร้อมลายเซ็นสดรับรองสำเนา
- บัตรประชาชนของผู้รับมอบอำนาจ
- แบบฟอร์มการถอนเงิน (ลงนามโดยผู้รับมอบอำนาจแทนเจ้าของบัญชี)
การเตรียมเอกสารมอบอำนาจสำหรับการปิดบัญชี:
- ชื่อและนามสกุลของผู้มอบอำนาจ (เจ้าของบัญชี)
- ชื่อและนามสกุลของผู้รับมอบอำนาจ
- ระบุรายละเอียดการขอปิดบัญชีเงินฝาก
- ติดอากรแสตมป์ 10 บาท
ในกรณีที่มอบอำนาจปิดบัญชี จำนวนเงินที่ได้รับจากการปิดบัญชีจะออกเป็นเช็คของธนาคาร (Cashier's Cheque) สั่งจ่ายในนามของเจ้าของบัญชีและประทับตรา 'A/C Payee Only' หรือโอนเข้าบัญชีในชื่อเดียวกับเจ้าของบัญชี จะไม่มีการจ่ายเงินสดให้กับผู้รับมอบอำนาจค่ะ
ตัวอย่างคำตอบที่ไม่ดี:
Q: Apple Watch มีรุ่นไหนบ้าง?
A: ขออภัยค่ะ ไม่ทราบว่าคุณสนใจรุ่นไหนเป็นพิเศษคะ? ตอนนี้มีข้อมูลเกี่ยวกับ Apple Watch Ultra 2, Apple Watch Series 9 และ Apple Watch SE2 ค่ะ
เวลาตอบสนองรวม
โมเดลที่สามารถสร้างคำตอบได้อย่างรวดเร็วโดยไม่ลดทอนความถูกต้องจะได้รับการประเมินค่าสูง ตัวชี้วัดนี้ทำให้มั่นใจว่าโมเดลสามารถใช้งานได้จริงในแอปพลิเคชันที่ต้องการการตอบสนองอย่างรวดเร็ว
ข้อจำกัด
ความท้าทายสำคัญในเกณฑ์มาตรฐาน TRAG คือความแตกต่างในโครงสร้างของคำสั่งและวิธีการที่ดีที่สุดของโมเดล LLM ที่แตกต่างกัน การปรับแต่งเกณฑ์มาตรฐานให้เหมาะสมกับทุกโมเดลโดยไม่มีความเอนเอียงต่อการปรับแต่งคำสั่งมากเกินไปเป็นเรื่องที่ยาก
ตัวอย่างเช่น หากเราเพิ่มคำสั่งว่า "พยายามให้คำตอบที่เป็นประโยชน์" โมเดลบางตระกูล เช่น โมเดล Claude 3 อาจมีความถูกต้องลดลงในคำถามที่ตอบไม่ได้เนื่องจากมีอัตราการสร้างคำตอบที่ผิดสูงขึ้น การตรวจสอบเพิ่มเติมพบว่าโมเดลปฏิบัติตามคำสั่งเพื่อให้คำตอบที่เป็นประโยชน์และพยายามไม่ให้คำตอบที่เป็นลบ
เพื่อแก้ไขความแตกต่างเหล่านี้ เราใช้คำสั่งมาตรฐานสองชุดที่พิสูจน์แล้วว่ามีคะแนนเฉลี่ยสูงกว่า การทดสอบทั้งหมดจะดำเนินการกับโมเดลทั้งหมดด้วยคำสั่งทั้งสองชุด และชุดผลลัพธ์ที่ให้คะแนนสูงกว่าสำหรับโมเดลนั้นจะถูกเลือก วิธีการนี้ทำให้มั่นใจว่าการประเมินเป็นไปอย่างสมดุลในขณะที่ยอมรับข้อจำกัดที่มีอยู่
ทาง Amity Solutions ก็มีบริการที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่