Chatbot
Krittanon Kaewtawee
3
นาที อ่าน
July 30, 2024

เปิดตัว TRAG Benchmark: มาตรฐานใหม่สำหรับการประเมิน LLMs ในภาษาไทย

เรายินดีอย่างยิ่งที่จะแนะนำแพลตฟอร์มใหม่สำหรับการประเมินผลศักยภาพของโมเดลภาษาใหญ่ (LLM) ในการทำความเข้าใจและสร้างการตอบสนองที่มีคุณภาพในภาษาไทย ชื่อว่า Thai Retrieval Augmented Generation (TRAG) Benchmark ซึ่งถือเป็นก้าวสำคัญในวงการ AI โดยมอบกรอบการประเมินที่แข็งแกร่งสำหรับการวัดประสิทธิภาพของ LLM ในหลายมิติและหมวดหมู่กรณีทดสอบ

ภาพรวมของ TRAG Benchmark

TRAG Benchmark ได้รับการพัฒนาขึ้นมาเพื่อประเมินความสามารถของ LLM ในการเข้าใจบริบทของเอกสารและสร้างคำตอบที่แม่นยำและเหมาะสมกับบริบทในภาษาไทย แพลตฟอร์มนี้ประกอบด้วยกรณีทดสอบทั้งหมด 56 กรณี แบ่งออกเป็น 8 หมวดหมู่หลัก และมี 7 ฉากทดสอบที่แตกต่างกัน โดยแต่ละกรณีทดสอบจะประกอบด้วยคำถามจากผู้ใช้และบริบทของเอกสารที่เกี่ยวข้อง เพื่อให้การประเมินครอบคลุมทุกด้านของความสามารถของโมเดล

หมวดหมู่และการทดสอบ

กรณีทดสอบถูกจัดประเภทไว้ในหมวดหมู่ต่อไปนี้:

สายการบิน: นโยบายและขั้นตอนเกี่ยวกับการจองที่นั่ง การตั้งราคาตั๋ว และกำหนดเวลาสิ้นสุดโปรโมชั่น

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • ขอเปลี่ยนวันเดินทางมีค่าใช้จ่ายเท่าไหร่คะ
  • จองที่นั่งได้ไหม

ยานยนต์: ข้อมูลเกี่ยวกับอุปกรณ์เสริมของรถยนต์ ความจุการบรรทุก และโปรโมชั่นปัจจุบัน

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • มีตัวล็อกประตูไหมคะ 
  • ปุ่ม SOS อยู่ตรงไหน 

ธนาคาร: ข้อมูลเกี่ยวกับเอกสารที่จำเป็นสำหรับการปิดบัญชี ขั้นตอนการมอบอำนาจ และการเปิดบัญชีใหม่

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • มอบอำนาจปิดบัญชีกระแสรายวัน ใช้เอกสารอะไรบ้าง

CRM: รายละเอียดการเป็นสมาชิก รวมถึงกระบวนการสมัคร การตรวจสอบคะแนน และการคำนวณรางวัล

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • เช็คคะแนนยังไง

การดูแลสุขภาพ: ความรู้ทางการแพทย์ เช่น การดูแลช่องปากและยาสำหรับความดันโลหิตสูง

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • การรักษาผู้ป่วยวัณโรค
  • ยาที่ควรระวังในผู้ป่วยความดันโลหิตสูง 

ทรัพยากรมนุษย์ (HR): สวัสดิการด้านการดูแลสุขภาพของพนักงาน ความคุ้มครองประกัน และนโยบายการเบิกจ่าย

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • ประกันสังคมใช้ไม่หมดยกไปปีหน้าได้หรือไม่
  • ขอรายชื่อโรงพยาบาลหรือคลินิกทันตกรรมที่บริษัทกำหนด

อุปกรณ์ไอที: คำถามจากผู้ใช้เกี่ยวกับโทรศัพท์มือถือและการเปรียบเทียบสมาร์ทโฟน

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • แนะนำมือถือกล้องดีๆหน่อยครับ งบประมาณ 8000
  • Tablet ราคาไม่เกินหมื่นมีรุ่นไหนบ้าง

การสนับสนุนทางเทคนิค: การตั้งค่า LAN การกู้รหัสผ่าน และการตั้งค่า WiFi Router

ตัวอย่างคำถามที่ใช้ทดสอบ:

  • ไอดีกับรหัสผ่านดูตรงไหน
  • จำรหัสผ่าน wifi ไม่ได้
แผนภูมิวงกลมที่แสดงการกระจายหมวดหมู่ใน TRAG Benchmark: การสนับสนุนด้านเทคนิค, HR, อุตสาหกรรมยานยนต์, สายการบิน, อุปกรณ์ IT, การดูแลสุขภาพ, ธนาคาร
TRAG Benchmark ประเมิน LLMs ในหมวดหมู่และการทดสอบที่แตกต่างกัน

การทดสอบถูกจัดประเภทตามปัจจัยสำคัญ 3 ประการ:

1. ประเภทของคำถาม: การตอบคำถามแบบครั้งเดียวและคำถามติดตามผล

2. ภาษาของบริบทเอกสาร: ภาษาอังกฤษ ภาษาไทย และบริบทที่ตั้งใจให้ว่าง

3. ความพร้อมของข้อมูล: ฉากที่ข้อมูลมีอยู่หรือไม่มีอยู่ ซึ่งต้องการให้โมเดลตอบสนองตามที่ถูกถาม

แผนภาพที่แสดงสามปัจจัยหลัก: ประเภทของคำถาม, ภาษาในบริบทเอกสาร, และความพร้อมใช้งานของข้อมูล.
การทดสอบ LLMs โดย TRAG Benchmark ในบริบทที่ต่างกัน

เกณฑ์การประเมิน

TRAG Benchmark ประเมินประสิทธิภาพของ LLM โดยอิงจาก:

  • ความสอดคล้องกับข้อเท็จจริง: คำตอบต้องสอดคล้องกับบริบทของเอกสารที่ให้มา
  • คุณภาพของภาษา: คำตอบควรเป็นภาษาไทย ไม่มีข้อผิดพลาดทางไวยากรณ์ และรักษาความสุภาพ
  • รูปแบบ: คำตอบควรเป็นข้อความธรรมดาโดยไม่มีการจัดรูปแบบพิเศษ
  • ความเร็วในการตอบสนอง: โมเดลต้องสร้างคำตอบภายใน 15 วินาที

การให้คะแนนและผลลัพธ์

TRAG Benchmark ใช้กระบวนการให้คะแนนสองขั้นตอน:

1. การให้คะแนนทั่วไปของ LLM: LLM ขั้นสูง GPT-4-2024-05-13 จะประเมินคุณภาพของคำตอบตามเกณฑ์ที่กล่าวมา

2. การจัดหมวดหมู่คำตอบที่ตอบได้: GPT-4-0613 จะจำแนกคำตอบเพื่อดูว่าโมเดลใช้เอกสารที่ให้มาเพื่อตอบคำถามหรือไม่

การเปรียบเทียบประสิทธิภาพของโมเดล AI ในหมวดหมู่ของเกณฑ์มาตรฐาน TRAG
แผนภูมิเรดาร์เปรียบเทียบประสิทธิภาพของโมเดล AI ต่างๆ ในหมวดหมู่ต่างๆ
การเปรียบเทียบความแม่นยำและเวลาตอบสนองของโมเดล AI ในเกณฑ์มาตรฐาน TRAG
กราฟแท่งแสดงเมตริกความแม่นยำและเวลาตอบสนองของโมเดล AI ต่างๆ

TRAG Benchmark มีการจัดอันดับประสิทธิภาพของ LLM ต่างๆ ซึ่งจะอัปเดตเป็นประจำเมื่อมีการประเมินโมเดลใหม่

เข้าร่วมกับเราในการพัฒนา AI ภาษาไทย

เราขอเชิญนักวิจัยและนักพัฒนามาใช้ TRAG Benchmark เพื่อประเมินและเปรียบเทียบประสิทธิภาพของโมเดลของพวกเขา การเข้าร่วมนี้จะช่วยขับเคลื่อนเทคโนโลยี AI ภาษาไทยไปข้างหน้า ช่วยปรับปรุงและนวัตกรรมโซลูชัน AI

สำรวจ AI แนวหน้าในภาษาไทยกับ TRAG Benchmark และเข้าร่วมกับเราในการขับเคลื่อนอนาคตของเทคโนโลยี AI

สำหรับข้อมูลเพิ่มเติมและการเริ่มต้นใช้งาน TRAG Benchmark เยี่ยมชมเว็บไซต์ของเรา