Generative AI

Krittanon Kaewtawee

นาที อ่าน

August 5, 2024

Thai Retrieval Augmented Generation (TRAG) Benchmark

ในโลกที่เทคโนโลยีปัญญาประดิษฐ์ (AI) กำลังพัฒนาอย่างรวดเร็ว เกณฑ์มาตรฐานในการสร้างภาษาไทย (Thai Retrieval Augmented Generation Benchmark) หรือ TRAG ถือเป็นเครื่องมือที่ล้ำสมัยที่ถูกออกแบบมาเพื่อประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) ในการเข้าใจและสร้างการตอบสนองที่คล้ายคลึงกับมนุษย์ในภาษาไทย

เกณฑ์มาตรฐานนี้มีความสำคัญอย่างยิ่งในการพัฒนาเทคโนโลยี AI ที่เหมาะสมกับภาษาไทย เพื่อให้มั่นใจว่าโมเดลสามารถจัดการกับความท้าทายด้านภาษาที่ไม่เหมือนใครและความท้าทายเชิงบริบทที่ภาษาไทยนำเสนอได้

วัตถุประสงค์ของเกณฑ์มาตรฐาน TRAG

วัตถุประสงค์หลักของเกณฑ์มาตรฐาน TRAG คือการสร้างกรอบมาตรฐานสำหรับการประเมินความสามารถของ LLM ในการประมวลผลและสร้างเนื้อหาภาษาไทย โดยมุ่งเน้นไปที่ข้อมูลคำถาม-คำตอบจากหลากหลายอุตสาหกรรม เกณฑ์มาตรฐานนี้จำลองสถานการณ์จริงที่การตอบสนองที่ถูกต้องและเหมาะสมตามบริบทเป็นสิ่งสำคัญ ซึ่งช่วยในการระบุจุดแข็งและจุดอ่อนของโมเดลต่าง ๆ และชี้นำการปรับปรุงและนวัตกรรมเพิ่มเติมใน AI ภาษาไทย

วิธีการทดสอบของ TRAG

เกณฑ์มาตรฐาน TRAG ใช้วิธีการทดสอบที่เข้มงวดโดยใช้ข้อมูลคำถาม-คำตอบจากองค์กรที่สังเคราะห์จากหลากหลายอุตสาหกรรม เช่น สายการบิน ยานยนต์ ธนาคาร การดูแลสุขภาพ และอื่น ๆ ข้อมูลทดสอบประกอบด้วยสองส่วนหลัก:

คำถาม: คำถามที่ผู้ใช้อาจถามในสถานการณ์จริง
บริบทเอกสาร: ข้อมูลที่จำเป็นต้องใช้ในการตอบคำถามอย่างถูกต้อง

การสร้างคำตอบจะใช้การรวมข้อมูลทั้งสองนี้เข้ากับคำสั่งมาตรฐาน เนื่องจากการจัดการกับคำสั่งแตกต่างกันไปในแต่ละตระกูลโมเดล สองคำสั่งมาตรฐานจะถูกใช้ในการประเมินแต่ละโมเดล และผลคะแนนรวมที่สูงกว่าจะถูกนำมาใช้เป็นคะแนนอย่างเป็นทางการของโมเดลนั้น คำตอบที่สร้างขึ้นจะได้รับการประเมินตามเกณฑ์ที่กำหนดไว้ล่วงหน้า

เกณฑ์การประเมินของ TRAG

เกณฑ์การให้คะแนนของ TRAG ถูกออกแบบมาเพื่อให้มั่นใจว่าการประเมินโมเดลเป็นไปอย่างครอบคลุม เกณฑ์เหล่านี้รวมถึง:

ความถูกต้องของคำตอบที่ตอบได้

ตัวชี้วัดนี้วัดเปอร์เซ็นต์ของคำถามที่โมเดลสามารถตอบได้อย่างถูกต้อง มันสะท้อนความสามารถของโมเดลในการเข้าใจคำถามและดึงข้อมูลที่ถูกต้องจากบริบทที่ให้มา ความถูกต้องของคำถามที่ตอบได้จะถูกประมวลผลโดยชุด LLM ที่เป็นกลางชุดหนึ่งที่ใช้คำสั่งที่กำหนดไว้ต่างกันเพื่อตัดสินว่าคำตอบนั้นถูกต้องหรือไม่

ความถูกต้องของคำถามที่ตอบไม่ได้

ตัวชี้วัดนี้ประเมินความสามารถของโมเดลในการตอบคำถามที่ไม่มีคำตอบในระบบตามบริบทที่ให้มาอย่างถูกต้องว่า "ขอโทษค่ะ ฉันไม่ทราบ" ซึ่งสำคัญมากในการประเมินความสามารถของโมเดลในการรับรู้เมื่อไม่มีข้อมูลเพียงพอที่จะให้คำตอบที่ถูกต้อง ความถูกต้องของคำถามที่ตอบไม่ได้จะถูกประมวลผลโดยชุด LLM ที่เป็นกลางชุดหนึ่งที่ใช้คำสั่งที่กำหนดไว้ต่างกัน

เกณฑ์การวิเคราะห์ LLM

ได้รับแรงบันดาลใจจากงานวิจัย "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" เกณฑ์นี้ใช้ GPT-4 ในการทำหน้าที่เป็นผู้ตัดสินที่เป็นกลาง การตัดสิน LLM จะประเมินคำตอบตามเกณฑ์ย่อยดังนี้:

ความถูกต้อง & ความเป็นประโยชน์: ประเมินว่าคำตอบนั้นถูกต้องตามข้อเท็จจริงและมีประโยชน์ต่อผู้ใช้หรือไม่
การแปลและไวยากรณ์: ประเมินความถูกต้องของไวยากรณ์ในคำตอบภาษาไทย เพื่อให้มั่นใจว่าภาษาที่ใช้นั้นถูกต้องและเหมาะสม
ข้อกำหนดเพิ่มเติม: ทดสอบความสามารถในการควบคุมคำสั่งโดยการเพิ่มข้อกำหนดเฉพาะ เช่น การตอบด้วยคำว่า "ค่ะ" และการเรียกตนเองด้วยชื่อที่กำหนด

การตัดสิน LLM จะให้คะแนนตามเกณฑ์เหล่านี้ ซึ่งจะถูกใช้เป็นคะแนนสุดท้ายสำหรับโมเดล การประเมินที่ครอบคลุมนี้ทำให้มั่นใจว่าโมเดลไม่เพียงแต่มีความถูกต้อง แต่ยังเหมาะสมกับบริบทและภาษาด้วย

เวลาตอบสนองรวม

อีกมิติหนึ่งที่เป็นตัววัดสำคัญเลยคือ เวลาตอบสนองรวม ซึ่งเป็นเวลาที่โมเดลใช้ในการตอบสนองทั้งหมด (ไม่ใช่แค่เวลาที่ใช้ในการสร้างโทเคนแรก) ตัวชี้วัดนี้มีความสำคัญในการประเมินประสิทธิภาพและการปฏิบัติจริงของโมเดลในแอปพลิเคชันในโลกแห่งความเป็นจริง

ผลลัพธ์ของการประเมิน

ความถูกต้องของคำถามที่ตอบได้

กราฟแท่งแสดงความแม่นยำของคำตอบที่สามารถตอบได้สำหรับโมเดล AI ต่างๆ โดยมีคะแนนตั้งแต่ 0.667 ถึง 1.000 — ความแม่นยำของคำตอบที่สามารถตอบได้สำหรับโมเดล AI ต่างๆ

ตัวอย่างคำตอบที่ดี:

Q: การดูแลผู้ป่วยเบาหวานในการรักษาทางทันตกรรมต้องทำอย่างไร?
บริบทเอกสาร: <แนวทางการดูแลผู้ป่วยเบาหวานในคลินิกทันตกรรม>
A: สำหรับการดูแลผู้ป่วยเบาหวานในการรักษาทางทันตกรรม มีข้อควรระวังและแนวทางปฏิบัติดังนี้:

ควรตรวจสอบระดับน้ำตาลในเลือดของผู้ป่วยก่อนการรักษา หากระดับน้ำตาลสูงเกินไป อาจต้องเลื่อนการรักษาออกไปจนกว่าจะควบคุมได้ดีขึ้น
นัดหมายผู้ป่วยในช่วงเช้าหลังอาหารเช้า เนื่องจากระดับน้ำตาลในเลือดมักจะคงที่ที่สุดในช่วงนี้
แนะนำให้ผู้ป่วยรับประทานอาหารและใช้ยาตามปกติก่อนมาพบทันตแพทย์ เพื่อป้องกันภาวะน้ำตาลในเลือดต่ำ
หลีกเลี่ยงการใช้ยาชาที่มีส่วนผสมของอีพิเนฟรินในปริมาณมาก เพราะอาจทำให้ระดับน้ำตาลในเลือดสูงขึ้น
ระมัดระวังเป็นพิเศษในการรักษาแผลในช่องปาก เนื่องจากผู้ป่วยเบาหวานมักมีการหายของแผลช้ากว่าปกติ
แนะนำการดูแลสุขภาพช่องปากที่ดี เพราะผู้ป่วยเบาหวานมีความเสี่ยงสูงต่อการเกิดโรคปริทันต์และฟันผุ
หากจำเป็นต้องให้ยาปฏิชีวนะ ควรเลือกชนิดที่ไม่ส่งผลกระทบต่อระดับน้ำตาลในเลือด
สังเกตอาการของภาวะน้ำตาลในเลือดต่ำระหว่างการรักษา เช่น เหงื่อออก ใจสั่น หน้ามืด หากพบอาการเหล่านี้ ควรหยุดการรักษาและให้ผู้ป่วยรับประทานอาหารหรือเครื่องดื่มที่มีน้ำตาลทันที
ในกรณีที่ต้องทำการรักษาที่ซับซ้อนหรือใช้เวลานาน อาจต้องปรึกษาแพทย์ผู้ดูแลผู้ป่วยเบาหวานเพื่อวางแผนการรักษาร่วมกัน

หวังว่าข้อมูลนี้จะเป็นประโยชน์สำหรับการดูแลผู้ป่วยเบาหวานในการรักษาทางทันตกรรม หากมีคำถามเพิ่มเติม สามารถสอบถามได้ค่ะ

ตัวอย่างคำตอบที่ไม่ดี

(ข้อมูลผิดจากเอกสารที่ให้มา):

Q: ถ้าเที่ยวบินล่าช้า จะได้รับการชดเชยอย่างไรบ้างคะ?
บริบทเอกสาร: <ข้อมูลเกี่ยวกับการชดเชยเมื่อเที่ยวบินล่าช้า>
A: ตามข้อมูลที่มีอยู่ กรณีเที่ยวบินล่าช้า ทางสายการบินจะมีการชดเชยให้ผู้โดยสาร แต่ขึ้นอยู่กับระยะเวลาที่ล่าช้าและสาเหตุของความล่าช้า โดยทั่วไปถ้าล่าช้าไม่เกิน 2 ชั่วโมง ทางสายการบินจะไม่มีการชดเชยใด ๆ หากล่าช้าเกิน 2 ชั่วโมงแต่ไม่เกิน 4 ชั่วโมง อาจจะมีการแจกน้ำดื่มให้ผู้โดยสาร ส่วนกรณีล่าช้าเกิน 4 ชั่วโมง ทางสายการบินอาจพิจารณาให้คูปองอาหารมูลค่าไม่เกิน 100 บาท แต่แนะนำให้ติดต่อเจ้าหน้าที่สายการบินโดยตรงเพื่อสอบถามรายละเอียดเพิ่มเติม เนื่องจากแต่ละสายการบินอาจมีนโยบายที่แตกต่างกันไป

ผู้โดยสารควรติดต่อเจ้าหน้าที่สายการบินทันทีเมื่อทราบว่าเที่ยวบินล่าช้า และเก็บหลักฐานต่าง ๆ ไว้ เช่น ใบเสร็จค่าอาหารหรือที่พัก หากต้องสำรองจ่ายไปก่อน นอกจากนี้ แต่ละสายการบินอาจมีนโยบายการชดเชยที่แตกต่างกัน จึงควรตรวจสอบเงื่อนไขของสายการบินที่ใช้บริการโดยตรง

ความถูกต้องของคำถามที่ตอบไม่ได้

ตัวชี้วัดนี้เน้นความสามารถของโมเดลในการรับรู้เมื่อไม่มีข้อมูลเพียงพอที่จะให้คำตอบที่ถูกต้อง โมเดลที่ทำงานได้ดีในด้านนี้สามารถหลีกเลี่ยงการสร้างคำตอบที่ไม่มีข้อเท็จจริงและให้การตอบสนองที่เหมาะสม เช่น "ขอโทษค่ะ ฉันไม่ทราบ" ซึ่งมีความสำคัญในการรักษาความน่าเชื่อถือและความไว้วางใจในโมเดล

กราฟแท่งแสดงความแม่นยำของคำตอบที่ไม่สามารถตอบได้สำหรับโมเดล AI ต่างๆ โดยมีคะแนนตั้งแต่ 0.125 ถึง 1.000 — ความแม่นยำของคำตอบที่ไม่สามารถตอบได้สำหรับโมเดล AI ต่างๆ

ตัวอย่างคำตอบที่ดี:

Q: รถรุ่นนี้มีระบบเบรก ABS หรือไม่คะ?
บริบทเอกสาร: <ไม่มีการให้บริบท>
A: ขอโทษค่ะ ในข้อมูลที่มีอยู่ไม่มีรายละเอียดเกี่ยวกับระบบเบรก ABS ของรถรุ่นนี้ ดังนั้นฉันไม่สามารถยืนยันได้ว่ารถรุ่นนี้มีระบบเบรก ABS หรือไม่ หากคุณต้องการทราบข้อมูลเฉพาะเกี่ยวกับระบบความปลอดภัยของรถรุ่นนี้ ฉันแนะนำให้สอบถามจากตัวแทนจำหน่ายหรือดูข้อมูลจากเว็บไซต์ทางการของบริษัทผู้ผลิตรถยนต์โดยตรงค่ะ หากคุณมีคำถามอื่น ๆ เกี่ยวกับรถยนต์ ฉันยินดีช่วยตอบคำถามเท่าที่ข้อมูลที่มีอยู่ค่ะ

ตัวอย่างคำตอบที่ไม่ดี:

Q: ประกันสุขภาพเบิกโรงพยาบาลไหนได้บ้างคะ?
บริบทเอกสาร: <ไม่มีการให้บริบท>
A: ขอขอบคุณสำหรับคำถามของคุณค่ะ ดิฉันสามารถให้รายชื่อโรงพยาบาลเอกชนที่บริษัทกำหนดในกรุงเทพมหานครและปริมณฑลดังนี้ค่ะ: … <รายชื่อโรงพยาบาล>

การประเมินของ LLM

การตัดสิน LLM ให้การประเมินที่ละเอียดอ่อนของการตอบสนองของโมเดล โดยพิจารณาความถูกต้อง ความเป็นประโยชน์ คุณภาพการแปล และการปฏิบัติตามข้อกำหนดเฉพาะ คะแนนสูงในด้านนี้บ่งชี้ว่าโมเดลไม่เพียงแต่ให้ข้อมูลที่ถูกต้อง แต่ยังสื่อสารได้อย่างมีประสิทธิภาพและเหมาะสมในภาษาไทย

กราฟแท่งแสดงคะแนนการประเมิน LLM สำหรับโมเดล AI ต่างๆ โดยมีคะแนนตั้งแต่ 0.471 ถึง 0.7464 — คะแนนการประเมิน LLM สำหรับโมเดล AI ต่างๆ

ตัวอย่างคำตอบที่ดี:

Q: มอบอำนาจปิดบัญชีกระแสรายวันใช้เอกสารอะไรบ้าง?
A: สามารถมอบอำนาจให้ผู้อื่นปิดบัญชีกระแสรายวันได้ค่ะ เอกสารที่ต้องใช้มีดังนี้:

เอกสารมอบอำนาจ
สมุดบัญชีธนาคาร
บัตรประชาชนของผู้มอบอำนาจ (เจ้าของบัญชี) พร้อมลายเซ็นสดรับรองสำเนา
บัตรประชาชนของผู้รับมอบอำนาจ
แบบฟอร์มการถอนเงิน (ลงนามโดยผู้รับมอบอำนาจแทนเจ้าของบัญชี)

การเตรียมเอกสารมอบอำนาจสำหรับการปิดบัญชี:

ชื่อและนามสกุลของผู้มอบอำนาจ (เจ้าของบัญชี)
ชื่อและนามสกุลของผู้รับมอบอำนาจ
ระบุรายละเอียดการขอปิดบัญชีเงินฝาก
ติดอากรแสตมป์ 10 บาท

ในกรณีที่มอบอำนาจปิดบัญชี จำนวนเงินที่ได้รับจากการปิดบัญชีจะออกเป็นเช็คของธนาคาร (Cashier's Cheque) สั่งจ่ายในนามของเจ้าของบัญชีและประทับตรา 'A/C Payee Only' หรือโอนเข้าบัญชีในชื่อเดียวกับเจ้าของบัญชี จะไม่มีการจ่ายเงินสดให้กับผู้รับมอบอำนาจค่ะ

ตัวอย่างคำตอบที่ไม่ดี:

Q: Apple Watch มีรุ่นไหนบ้าง?
A: ขออภัยค่ะ ไม่ทราบว่าคุณสนใจรุ่นไหนเป็นพิเศษคะ? ตอนนี้มีข้อมูลเกี่ยวกับ Apple Watch Ultra 2, Apple Watch Series 9 และ Apple Watch SE2 ค่ะ

เวลาตอบสนองรวม

โมเดลที่สามารถสร้างคำตอบได้อย่างรวดเร็วโดยไม่ลดทอนความถูกต้องจะได้รับการประเมินค่าสูง ตัวชี้วัดนี้ทำให้มั่นใจว่าโมเดลสามารถใช้งานได้จริงในแอปพลิเคชันที่ต้องการการตอบสนองอย่างรวดเร็ว

กราฟแท่งแสดงคะแนนการประเมิน เวลาตอบสนองโดยรวมสำหรับโมเดล AI ต่างๆ โดยมีคะแนนตั้งแต่ 1.4 to 18.35 — เวลาตอบสนองโดยรวมสำหรับโมเดลต่างๆ

ข้อจำกัด

ความท้าทายสำคัญในเกณฑ์มาตรฐาน TRAG คือความแตกต่างในโครงสร้างของคำสั่งและวิธีการที่ดีที่สุดของโมเดล LLM ที่แตกต่างกัน การปรับแต่งเกณฑ์มาตรฐานให้เหมาะสมกับทุกโมเดลโดยไม่มีความเอนเอียงต่อการปรับแต่งคำสั่งมากเกินไปเป็นเรื่องที่ยาก

ตัวอย่างเช่น หากเราเพิ่มคำสั่งว่า "พยายามให้คำตอบที่เป็นประโยชน์" โมเดลบางตระกูล เช่น โมเดล Claude 3 อาจมีความถูกต้องลดลงในคำถามที่ตอบไม่ได้เนื่องจากมีอัตราการสร้างคำตอบที่ผิดสูงขึ้น การตรวจสอบเพิ่มเติมพบว่าโมเดลปฏิบัติตามคำสั่งเพื่อให้คำตอบที่เป็นประโยชน์และพยายามไม่ให้คำตอบที่เป็นลบ

เพื่อแก้ไขความแตกต่างเหล่านี้ เราใช้คำสั่งมาตรฐานสองชุดที่พิสูจน์แล้วว่ามีคะแนนเฉลี่ยสูงกว่า การทดสอบทั้งหมดจะดำเนินการกับโมเดลทั้งหมดด้วยคำสั่งทั้งสองชุด และชุดผลลัพธ์ที่ให้คะแนนสูงกว่าสำหรับโมเดลนั้นจะถูกเลือก วิธีการนี้ทำให้มั่นใจว่าการประเมินเป็นไปอย่างสมดุลในขณะที่ยอมรับข้อจำกัดที่มีอยู่

ทาง Amity Solutions ก็มีบริการที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่

สอบถามพนักงานขาย

Thai Retrieval Augmented Generation (TRAG) Benchmark

วัตถุประสงค์ของเกณฑ์มาตรฐาน TRAG

วิธีการทดสอบของ TRAG