OpenAI o1: LLM รุ่นใหม่ ทำเรื่องยากให้เป็นเรื่องง่าย!

OpenAI ได้สร้างชื่อเสียงอย่างโดดเด่นในวงการ AI ด้วยโมเดลภาษาขนาดใหญ่ (LLMs) ที่สามารถทำความเข้าใจและสร้างข้อความที่คล้ายกับภาษามนุษย์ ไม่ว่าจะเป็นในด้านการให้บริการลูกค้า การสร้างเนื้อหา หรือการใช้งานอื่น ๆ โมเดลอย่าง GPT-4o ได้สร้างมาตรฐานใหม่ในด้านประมวลผลภาษาธรรมชาติ แต่การพัฒนาไม่ได้หยุดอยู่แค่นั้น ด้วยการเปิดตัว OpenAI o1 โมเดลใหม่นี้ได้รับการออกแบบเพื่อเพิ่มศักยภาพในการใช้เหตุผลอย่างซับซ้อนผ่านการเรียนรู้แบบเสริมแรง (Reinforcement Learning) ถือเป็นก้าวกระโดดครั้งสำคัญที่ทำให้โมเดลสามารถคิดวิเคราะห์ก่อนตอบคำถามได้อย่างลึกซึ้ง

OpenAI o1: การใช้เหตุผลอย่างมีประสิทธิภาพ

OpenAI o1 เป็นโมเดลภาษาขนาดใหญ่รุ่นใหม่ที่ถูกพัฒนาขึ้นเพื่อจัดการกับงานที่มีความซับซ้อน โดยใช้การเรียนรู้แบบเสริมแรง (Reinforcement Learning) ในการฝึกฝน สิ่งที่แตกต่างจากรุ่นก่อน ๆ คือ o1 สามารถ “คิด” ได้ก่อนที่จะตอบคำถาม โดยจะสร้างกระบวนการคิดเชิงตรรกะภายในก่อนที่จะให้คำตอบออกมา

OpenAI o1 ได้แสดงศักยภาพที่ยอดเยี่ยมในหลายด้าน โดยสามารถทำคะแนนในระดับท็อป 89 เปอร์เซ็นต์ในข้อสอบการเขียนโปรแกรมเชิงแข่งขัน (Codeforces) และติดอันดับท็อป 500 นักเรียนในสหรัฐฯ ในการทดสอบคณิตศาสตร์ (AIME) นอกจากนี้ยังทำคะแนนได้สูงกว่าระดับปริญญาเอกในวิชาฟิสิกส์ ชีววิทยา และเคมีในแบบทดสอบ GPQA แม้ว่าจะยังคงมีงานที่ต้องทำเพื่อให้ใช้งานได้ง่ายเหมือนโมเดลอื่น ๆ แต่ OpenAI o1-preview รุ่นทดสอบก็พร้อมให้ใช้งานแล้วใน ChatGPT และกับผู้ใช้ API ที่ได้รับความไว้วางใจ

แผนภูมิการกระจายสองภาพแสดงการพัฒนาความแม่นยำของ o1 AIME ตามเวลาสำหรับช่วงการฝึกและการทดสอบ — ความแม่นยำของ o1 AIME ในระหว่างการฝึกและในช่วงทดสอบ

การประเมินผลอย่างเข้มงวด

เพื่อแสดงให้เห็นถึงความก้าวหน้าในการใช้เหตุผลของ OpenAI o1 เมื่อเทียบกับ GPT-4o ทีมงานได้ทำการทดสอบโมเดลกับการสอบของมนุษย์และเกณฑ์มาตรฐานของ machine learning หลายประเภท ซึ่งผลการทดสอบพบว่า o1 มีประสิทธิภาพที่ดีกว่า GPT-4o อย่างมากในงานที่เน้นการใช้เหตุผล ในทุกการทดสอบ โมเดลถูกประเมินด้วยการใช้ทรัพยากรการคำนวณอย่างเต็มที่

แผนภูมิแท่งสามภาพเปรียบเทียบประสิทธิภาพของ GPT-4o, o1 preview และ o1 ในด้านคณิตศาสตร์ การเขียนโค้ด และวิทยาศาสตร์ — การเปรียบเทียบประสิทธิภาพที่เพิ่มขึ้นของ o1กับ GPT-4o บนเกณฑ์มาตรฐานต่างๆ

จุดเด่นของ OpenAI o1 มาจากการเรียนรู้แบบเสริมแรง (reinforcement learning) ที่ทำให้โมเดลสามารถพัฒนาการคิดอย่างมีประสิทธิภาพ กระบวนการนี้ช่วยให้ o1 สร้างลำดับความคิดที่สมเหตุสมผลและมีประสิทธิภาพยิ่งขึ้น การฝึกฝนด้วยการเรียนรู้แบบเสริมแรงช่วยให้โมเดลสามารถคิดได้ลึกซึ้งและตอบคำถามได้แม่นยำยิ่งขึ้น การฝึกฝนนี้ยังแตกต่างจากการฝึกโมเดลภาษาแบบทั่วไป ซึ่งมีข้อจำกัดและความท้าทายที่ต่างกันออกไป

ในแบบทดสอบที่ต้องใช้เหตุผลขั้นสูงหลายประเภท OpenAI o1 สามารถทำผลงานได้เทียบเท่ากับผู้เชี่ยวชาญ ตัวอย่างเช่น การทดสอบคณิตศาสตร์อย่าง MATH และ GSM8K กลายเป็นมาตรฐานที่ไม่สามารถแยกความแตกต่างระหว่างโมเดลระดับสูงได้อีกต่อไป ทาง OpenAI จึงได้ทดสอบ o1 กับ AIME ปี 2024 ซึ่งเป็นการทดสอบที่ออกแบบมาเพื่อท้าทายนักเรียนคณิตศาสตร์ระดับหัวกะทิของสหรัฐฯ ในขณะที่ GPT-4o สามารถแก้โจทย์ได้เพียง 12% (1.8/15 ข้อ) แต่ OpenAI o1 สามารถแก้โจทย์ได้ถึง 74% (11.1/15 ข้อ) ในการลองเพียงครั้งเดียว และ 83% (12.5/15 ข้อ) เมื่อมีการวิเคราะห์ข้อมูลจาก 64 ตัวอย่าง และมากถึง 93% (13.9/15 ข้อ) เมื่อมีการทบทวนและจัดอันดับตัวอย่าง 1,000 ตัวอย่างด้วยฟังก์ชันการให้คะแนน การได้คะแนน 13.9 ข้อนี้ทำให้ o1 ติดอันดับท็อป 500 ของประเทศและผ่านเกณฑ์เข้าสู่การแข่งขันคณิตศาสตร์โอลิมปิกของสหรัฐฯ

นอกจากนี้ o1 ยังได้แสดงศักยภาพในแบบทดสอบ GPQA diamond ซึ่งเป็นการทดสอบความสามารถในวิชาเคมี ฟิสิกส์ และชีววิทยา โดยผลลัพธ์ชี้ว่า o1 สามารถทำคะแนนได้ดีกว่าผู้เชี่ยวชาญที่มีระดับปริญญาเอก โมเดลนี้เป็นครั้งแรกที่สามารถก้าวข้ามขีดจำกัดของการทดสอบนี้ได้ แต่ไม่ได้หมายความว่า o1 เก่งกว่าผู้เชี่ยวชาญทุกด้าน เพียงแต่สามารถแก้โจทย์บางประเภทได้ดีกว่าที่คาดหวังไว้ นอกจากนี้ ในแบบทดสอบอื่น ๆ o1 ยังสามารถทำคะแนนได้สูงกว่าระดับมาตรฐานเดิม รวมถึงการทำคะแนน 78.2% ในแบบทดสอบ MMMU ที่ทำให้ o1 เป็นโมเดลแรกที่สามารถแข่งขันกับผู้เชี่ยวชาญได้

ลำดับความคิด: การคิดอย่างมีขั้นตอน

เช่นเดียวกับมนุษย์ที่ต้องใช้เวลาคิดทบทวนก่อนตอบคำถามที่ยาก OpenAI o1 ได้พัฒนาวิธีการ "คิดเป็นลำดับขั้นตอน" ในการแก้ไขปัญหา ผ่านการเรียนรู้แบบเสริมแรง โมเดลนี้ได้เรียนรู้วิธีการปรับปรุงลำดับความคิดของตนเอง สามารถรับรู้และแก้ไขความผิดพลาด รวมทั้งแยกปัญหาที่ยากออกเป็นขั้นตอนที่ง่ายกว่า และหาวิธีแก้ไขใหม่เมื่อวิธีเดิมไม่ประสบความสำเร็จ กระบวนการนี้ทำให้ o1 มีความสามารถในการใช้เหตุผลที่ยอดเยี่ยมขึ้นอย่างมาก

การปรับปรุงนี้สามารถเห็นได้ชัดเจนในตัวอย่างหลายกรณีจาก o1-preview ที่สามารถแสดงให้เห็นถึงการคิดเชิงเหตุผลที่ก้าวหน้าอย่างชัดเจน

การเขียนโค้ดที่พัฒนาขึ้น

เพื่อเพิ่มความสามารถในการเขียนโปรแกรม โมเดล o1 ได้รับการฝึกฝนเพิ่มเติมเพื่อแข่งขันในโอลิมปิกคอมพิวเตอร์ระดับนานาชาติ (IOI) ปี 2024 โดยสามารถทำคะแนนได้ 213 คะแนนและอยู่ในอันดับที่ 49 ของผู้เข้าแข่งขันมนุษย์ ภายใต้เวลา 10 ชั่วโมง โมเดลต้องแก้ปัญหาอัลกอริทึมที่ท้าทาย 6 ข้อ และสามารถส่งผลลัพธ์ได้ 50 ครั้งต่อปัญหา การใช้กลยุทธ์ในการเลือกส่งโค้ดที่ผ่านการทดสอบช่วยเพิ่มคะแนนได้อย่างมาก

เมื่อข้อจำกัดในการส่งผลลัพธ์ถูกผ่อนคลาย ความสามารถของโมเดลก็เพิ่มขึ้นอย่างมีนัยสำคัญ โดยโมเดลสามารถทำคะแนนได้ถึง 362.14 ซึ่งเกินเกณฑ์ที่กำหนดสำหรับเหรียญทอง แม้ไม่ได้ใช้กลยุทธ์การเลือกในเวลาจริง

แผนภูมิแท่งแสดงคะแนน Elo บน Codeforces ของโมเดล AI ต่างๆ โดย o1-ioi (เวอร์ชันที่ปรับแต่งเพิ่มเติม) ได้คะแนนสูงสุดที่ 1807 อยู่ในเปอร์เซ็นไทล์ที่ 93 — คะแนน Elo บน Codeforces แสดงการพัฒนาของ o1 หลังการปรับแต่งเพิ่มเติม

การประเมินความชอบของมนุษย์

นอกจากการสอบและเกณฑ์มาตรฐานทางวิชาการแล้ว OpenAI ยังประเมินความพึงพอใจของผู้ใช้งานระหว่าง OpenAI o1-preview และ GPT-4o ในหลาย ๆ สาขา พบว่าผู้ใช้ชื่นชอบ o1-preview มากกว่าในหัวข้อที่เกี่ยวข้องกับการใช้เหตุผล เช่น การวิเคราะห์ข้อมูล การเขียนโค้ด และคณิตศาสตร์ อย่างไรก็ตาม โมเดลยังไม่เป็นที่นิยมเท่าในงานภาษาธรรมชาติบางอย่าง ซึ่งแสดงให้เห็นว่าแม้ o1 จะเก่งในเรื่องเหตุผล แต่ก็อาจไม่เหมาะสมสำหรับงานทุกประเภท

แผนภูมิแท่งแนวนอนแสดงอัตราความชอบของมนุษย์ระหว่าง o1-preview กับ GPT-4o ในด้านต่างๆ — การเปรียบเทียบความชอบของมนุษย์ระหว่าง o1-preview กับ GPT-4o

มาตรการความปลอดภัยใหม่ๆ

OpenAI ได้รวมมาตรการความปลอดภัยใหม่ ๆ เข้ากับความสามารถในการใช้เหตุผลของ o1 โดยการฝังแนวทางความปลอดภัยลงในกระบวนการคิดของโมเดล ทำให้โมเดลสามารถยึดถือค่านิยมและหลักการของมนุษย์ได้ดียิ่งขึ้น

การผสมผสานนโยบายความปลอดภัยเข้ากับลำดับความคิด (chain of thought) ของโมเดลช่วยให้สามารถทำงานอย่างปลอดภัยและสอดคล้องกับมาตรฐานที่กำหนด การฝึกสอนโมเดลเกี่ยวกับกฎเกณฑ์ความปลอดภัยและวิธีการใช้เหตุผลเกี่ยวกับกฎเหล่านี้ ทำให้ความสามารถในการใช้เหตุผลของโมเดลช่วยเพิ่มความยืดหยุ่นและความแข็งแกร่งเมื่อเจอสถานการณ์ที่ไม่เป็นไปตามแบบแผน

นอกจากนี้ โมเดลยังได้ผ่านการทดสอบความปลอดภัยที่เข้มงวดก่อนการนำไปใช้ตามกรอบการเตรียมความพร้อมของ OpenAI ซึ่งการใช้เหตุผลในลำดับความคิดได้ช่วยพัฒนาโมเดลให้ทำงานอย่างมีประสิทธิภาพและปลอดภัยมากขึ้น โดยเฉพาะการลดจำนวนเหตุการณ์ที่โมเดลแสดงพฤติกรรมไม่พึงประสงค์หรือละเมิดข้อกำหนด

การซ่อนกระบวนการคิด

OpenAI ได้ตัดสินใจที่จะไม่แสดงลำดับความคิดแบบดิบให้กับผู้ใช้ในโมเดลซีรีส์ o1 แม้ว่าการให้เห็นลำดับความคิดของโมเดลอาจช่วยให้เข้าใจได้มากขึ้นเกี่ยวกับกระบวนการคิดของมัน แต่ OpenAI เห็นว่าการให้เข้าถึงอย่างไม่กรองอาจทำให้เกิดความเสี่ยงต่อการควบคุมพฤติกรรมของโมเดล ดังนั้นแทนที่จะเปิดเผยข้อมูลดิบทั้งหมด OpenAI เลือกที่จะสรุปลำดับความคิดในรูปแบบที่เข้าใจได้ง่ายและปลอดภัยยิ่งขึ้น เพื่อให้ผู้ใช้ยังคงได้ข้อมูลที่สำคัญโดยไม่เสี่ยงต่อผลเสีย

สรุป

OpenAI o1 ก้าวขึ้นมาเป็นผู้นำด้านการใช้เหตุผลของ AI และแสดงให้เห็นถึงศักยภาพที่ดีในการนำมาใช้ในหลาย ๆ ด้าน เช่น วิทยาศาสตร์ การเขียนโค้ด และคณิตศาสตร์ การพัฒนาอย่างต่อเนื่องจะนำไปสู่การปรับปรุงความสามารถในการทำงานและความปลอดภัยมากขึ้น โมเดลซีรีส์ o1 พร้อมที่จะเปิดประตูสู่การใช้งาน AI ในรูปแบบใหม่ ๆ และสร้างประโยชน์มากมายให้กับผู้ใช้งานและนักพัฒนา API

ทาง Amity Solutions ก็มีบริการ Amity Chatbots ที่ช่วยเพิ่มประสิทธิภาพการดำเนินงานเช่นกัน ปรึกษาผู้เชี่ยวชาญของเราได้ที่นี่