OpenAI đã công bố o1-mini, một mô hình ngôn ngữ chuyên biệt được chế tạo tỉ mỉ để suy luận hiệu quả về chi phí, đặc biệt xuất sắc trong các lĩnh vực Khoa học, Công nghệ, Kỹ thuật và Toán học (STEM), với sự nhấn mạnh đáng kể vào toán học và mã hóa. Mô hình này đạt được một kỳ tích đáng chú ý khi gần như sánh ngang với hiệu suất của đối tác lớn hơn của nó, OpenAI o1, trên các tiêu chuẩn đánh giá nghiêm ngặt như Kỳ thi Toán học mời của Hoa Kỳ (AIME) và Codeforces.
Sự ra đời của o1-mini hứa hẹn sẽ cách mạng hóa các ứng dụng đòi hỏi khả năng suy luận mạnh mẽ mà không cần kiến thức tổng quát sâu rộng về thế giới. Thiết kế được tối ưu hóa của nó chuyển thành giải pháp nhanh hơn và tiết kiệm chi phí hơn đáng kể, sẵn sàng định hình lại bối cảnh của các ứng dụng AI tập trung vào STEM.

Một bước tiến tới lý luận dễ tiếp cận
OpenAI o1-mini hiện đã có sẵn cho người dùng API Tier 5, mở ra một kỷ nguyên mới về khả năng chi trả với mức giảm 80% so với mô hình OpenAI o1-preview. Ngoài ra, người dùng Chat Plus, Team, Enterprise và Edu có thể dễ dàng tận dụng o1-mini như một giải pháp thay thế hấp dẫn cho o1-preview, tận hưởng lợi ích của giới hạn tốc độ cao hơn và độ trễ giảm.
Tiên phong trong lý luận tối ưu hóa STEM
Các mô hình ngôn ngữ lớn như o1 theo truyền thống được đào tạo trước trên các tập dữ liệu văn bản khổng lồ, mang lại cho chúng kiến thức thế giới rộng lớn. Tuy nhiên, chiều rộng này phải trả giá bằng chi phí tính toán và thời gian suy luận chậm hơn. Ngược lại hoàn toàn, o1-mini áp dụng một cách tiếp cận tập trung hơn bằng cách được tối ưu hóa cụ thể cho lý luận STEM trong giai đoạn đào tạo trước của nó. Bằng cách trải qua cùng một quy trình học tăng cường tính toán cao (RL) như đối tác lớn hơn của nó, o1-mini đạt được hiệu suất tương đương trên một loạt các tác vụ lý luận quan trọng trong khi vẫn duy trì hồ sơ chi phí thuận lợi hơn đáng kể.
Đánh giá chuẩn nhấn mạnh năng lực của o1-mini trong các nhiệm vụ trí tuệ và lý luận, ngang hàng với o1-preview và o1. Tuy nhiên, điều quan trọng là phải thừa nhận rằng hiệu suất của o1-mini trong các nhiệm vụ đòi hỏi kiến thức thực tế không phải STEM không mạnh bằng, làm nổi bật bản chất chuyên biệt của nó.
Giải mã số liệu hiệu suất
Toán học
o1-mini thể hiện lợi thế cạnh tranh của mình trong cuộc thi toán AIME cấp trung học đầy thách thức, đạt được số điểm 70.0%, gần bằng số điểm 1% của o74.4. Thành tích này đặc biệt đáng chú ý khi xét đến chi phí suy luận thấp hơn đáng kể của o1-mini. Đáng chú ý là o1-mini vượt trội hơn o1-preview, đạt số điểm 44.6%. Để hiểu rõ hơn, số điểm của o1-mini, tương đương với việc trả lời đúng khoảng 11 trong số 15 câu hỏi, đưa nó vào top 500 học sinh trung học phổ thông của Hoa Kỳ.
Lập trình
o1-mini tiếp tục chuỗi thành tích ấn tượng của mình trong lĩnh vực mã hóa, đạt được xếp hạng Elo là 1650 trên trang web cuộc thi Codeforces. Xếp hạng này đưa nó gần với Elo 1 của o1673 và vượt qua 1 của o1258-preview. Điểm Elo đáng gờm như vậy cho thấy khả năng mã hóa của o1-mini ngang bằng với 86 phần trăm lập trình viên hàng đầu đang tích cực cạnh tranh trên nền tảng Codeforces. Hơn nữa, o1-mini chứng minh được trình độ thành thạo trong chuẩn mực mã hóa HumanEval và các thử thách cướp cờ (CTF) an ninh mạng cấp trung học.
THÂN CÂY
Sự chuyên môn hóa của o1-mini thể hiện rõ trên các chuẩn mực học thuật đòi hỏi phải có lý luận, chẳng hạn như tập dữ liệu Trả lời câu hỏi mục đích chung (GPQA) cho khoa học và tập dữ liệu MATH-500. Trong các đánh giá này, o1-mini vượt trội hơn hiệu suất của GPT-4oTuy nhiên, do tập trung chủ yếu vào STEM, hiệu suất của o1-mini trong các tác vụ như chuẩn hiểu ngôn ngữ đa nhiệm hàng loạt (MMLU) và một số khía cạnh của GPQA vẫn kém hơn so với các mô hình có kiến thức rộng hơn về thế giới, chẳng hạn như GPT-4o và o1-preview.
Đánh giá sở thích của con người
Người đánh giá con người đã được tuyển dụng để so sánh phản ứng của o1-mini với phản ứng của GPT-4o đối với các câu hỏi mở, đầy thử thách trên nhiều lĩnh vực khác nhau. Phương pháp này phản ánh sự so sánh trước đó giữa o1-preview và GPT-4o. Tương tự như o1-preview, o1-mini được ưa chuộng hơn GPT-4o trong các lĩnh vực phụ thuộc nhiều vào lý luận. Tuy nhiên, trong các lĩnh vực tập trung vào ngôn ngữ, GPT-4o vẫn giữ được lợi thế của mình.
Tốc độ mô hình
Hiệu quả tính toán của o1-mini chuyển thành tốc độ tăng đáng kể. Một ví dụ cụ thể cho thấy một câu hỏi lý luận từ ngữ mà cả o1-mini và o1-preview đều đưa ra câu trả lời đúng, trong khi GPT-4o lại chậm chạp. Thật ấn tượng, o1-mini đưa ra giải pháp nhanh hơn khoảng 3-5 lần so với o1-preview.
Ưu Tiên An Toàn
OpenAI duy trì cam kết không lay chuyển của mình đối với vấn đề an toàn bằng cách đào tạo o1-mini sử dụng cùng các kỹ thuật căn chỉnh và an toàn được sử dụng cho o1-preview. Mô hình chứng minh khả năng bẻ khóa mạnh mẽ hơn đáng kể 59% trên phiên bản nội bộ của tập dữ liệu StrongREJECT so với GPT-4o. Trước khi triển khai, OpenAI đã tiến hành đánh giá rủi ro an toàn tỉ mỉ cho o1-mini, tuân thủ cùng một cách tiếp cận nghiêm ngặt đối với sự chuẩn bị, nhóm đỏ bên ngoài và đánh giá an toàn như o1-preview. Kết quả toàn diện từ các đánh giá này được công khai trong thẻ hệ thống đi kèm.
Nhận thức những hạn chế và định hướng tương lai
Trong khi o1-mini vượt trội về lý luận STEM, bản chất chuyên biệt của nó dẫn đến kiến thức thực tế về các chủ đề không phải STEM, chẳng hạn như ngày tháng, tiểu sử và thông tin thú vị, tương đương với các LLM nhỏ hơn như GPT-4o mini. OpenAI đang tích cực cam kết giải quyết những hạn chế này trong các lần lặp lại trong tương lai của mô hình. Ngoài ra, họ đang khám phá các con đường để mở rộng khả năng của o1-mini sang các phương thức và lĩnh vực chuyên biệt khác ngoài STEM.
Kết luận
OpenAI o1-mini đại diện cho một bước tiến đáng kể hướng tới việc dân chủ hóa khả năng tiếp cận các khả năng suy luận mạnh mẽ. Hiệu quả về chi phí, cùng với hiệu suất vượt trội trong các lĩnh vực STEM, định vị nó như một công cụ vô giá cho nhiều ứng dụng. Mặc dù thừa nhận những hạn chế hiện tại, sự tận tâm của OpenAI trong việc cải tiến và mở rộng liên tục hứa hẹn một tương lai tươi sáng cho o1-mini và tiềm năng định hình lại bối cảnh AI của nó.