OpenAI o1-mini: Penalaran STEM yang Hemat Biaya

September 13, 2024

OpenAI telah meluncurkan o1-mini, model bahasa khusus yang dibuat dengan cermat untuk penalaran yang hemat biaya, khususnya unggul dalam domain Sains, Teknologi, Teknik, dan Matematika (STEM), dengan penekanan yang jelas pada matematika dan pengodean. Model ini mencapai prestasi luar biasa dengan hampir menyamai kinerja mitranya yang lebih besar, OpenAI o1, pada tolok ukur evaluasi yang ketat seperti American Invitational Mathematics Examination (AIME) dan Codeforces.

Kehadiran o1-mini menjanjikan untuk merevolusi aplikasi yang menuntut kemampuan penalaran yang kuat tanpa memerlukan pengetahuan umum yang luas. Desainnya yang dioptimalkan menghasilkan solusi yang lebih cepat dan jauh lebih hemat biaya, yang siap untuk membentuk kembali lanskap aplikasi AI yang berfokus pada STEM.

OpenAI o1-mini

Sebuah Lompatan Menuju Penalaran yang Mudah Diakses

OpenAI o1-mini kini tersedia untuk pengguna API Tier 5, menandai era baru keterjangkauan dengan pengurangan biaya 80% dibandingkan model OpenAI o1-preview. Selain itu, pengguna Chat Plus, Team, Enterprise, dan Edu dapat dengan mudah memanfaatkan o1-mini sebagai alternatif yang menarik bagi o1-preview, dengan menikmati manfaat batas kecepatan yang lebih tinggi dan latensi yang lebih rendah.

Pionir Penalaran yang Dioptimalkan untuk STEM

Model bahasa besar seperti o1 secara tradisional dilatih terlebih dahulu pada kumpulan data teks kolosal, yang memberi mereka pengetahuan dunia yang luas. Namun, keluasan ini mengorbankan biaya komputasi dan waktu inferensi yang lebih lambat. Sebaliknya, o1-mini mengadopsi pendekatan yang lebih terfokus dengan dioptimalkan secara khusus untuk penalaran STEM selama fase prapelatihannya. Dengan menjalani alur pembelajaran penguatan (RL) komputasi tinggi yang sama seperti mitranya yang lebih besar, o1-mini mencapai kinerja yang sebanding pada serangkaian tugas penalaran penting sambil mempertahankan profil biaya yang jauh lebih menguntungkan.

Evaluasi tolok ukur menggarisbawahi kecakapan o1-mini dalam tugas-tugas kecerdasan dan penalaran, yang mana ia setara dengan o1-preview dan o1. Namun, penting untuk mengakui bahwa kinerja o1-mini pada tugas-tugas yang memerlukan pengetahuan faktual non-STEM tidak sekuat itu, yang menyoroti sifatnya yang terspesialisasi.

Mengungkap Metrik Kinerja

Matematika

o1-mini menunjukkan keunggulan kompetitifnya dalam kompetisi matematika AIME tingkat sekolah menengah yang menantang, dengan memperoleh skor 70.0%, yang hampir menyaingi skor o1 sebesar 74.4%. Pencapaian ini sangat penting mengingat biaya inferensi o1-mini yang jauh lebih rendah. Khususnya, o1-mini mengungguli o1-preview, yang memperoleh skor 44.6%. Sebagai perbandingan, skor o1-mini, yang setara dengan menjawab dengan benar sekitar 11 dari 15 pertanyaan, menempatkannya dalam 500 siswa sekolah menengah AS teratas.

Pengkodean

o1-mini melanjutkan pencapaiannya yang mengesankan di arena pengkodean, dengan meraih peringkat Elo sebesar 1650 di situs web kompetisi Codeforces. Peringkat ini menempatkannya di dekat Elo o1 sebesar 1673 dan melampaui o1-preview sebesar 1258. Skor Elo yang luar biasa tersebut menandakan bahwa kemampuan pengkodean o1-mini setara dengan persentil ke-86 teratas dari programmer yang secara aktif berkompetisi di platform Codeforces. Selain itu, o1-mini menunjukkan kemahiran dalam tolok ukur pengkodean HumanEval dan tantangan tangkap bendera (CTF) keamanan siber tingkat sekolah menengah atas.

BATANG

Spesialisasi o1-mini bersinar melalui tolok ukur akademis yang menuntut penalaran, seperti kumpulan data General Purpose Question Answering (GPQA) untuk sains dan kumpulan data MATH-500. Dalam evaluasi ini, o1-mini melampaui kinerja GPT-4oNamun, karena fokusnya yang disengaja pada STEM, kinerja o1-mini pada tugas-tugas seperti tolok ukur Pemahaman Bahasa Multitugas Besar-besaran (MMLU) dan aspek-aspek tertentu dari GPQA tertinggal di belakang model-model dengan pengetahuan dunia yang lebih luas, seperti GPT-4o dan o1-preview.

Evaluasi Preferensi Manusia

Penilai manusia diminta untuk membandingkan respons o1-mini dengan respons GPT-4o pada pertanyaan terbuka yang menantang di berbagai domain. Metodologi ini mencerminkan perbandingan sebelumnya antara o1-preview dan GPT-4o. Konsisten dengan o1-preview, o1-mini memperoleh preferensi atas GPT-4o dalam domain yang sangat bergantung pada penalaran. Namun, dalam domain yang berfokus pada bahasa, GPT-4o mempertahankan keunggulannya.

Model Kecepatan

Efisiensi komputasi o1-mini menghasilkan peningkatan kecepatan yang nyata. Contoh konkretnya adalah pertanyaan penalaran kata di mana o1-mini dan o1-preview memberikan jawaban yang benar, sementara GPT-4o gagal. Hebatnya, o1-mini mencapai solusi sekitar 3-5 kali lebih cepat daripada o1-preview.

Mengutamakan Keselamatan

OpenAI mempertahankan komitmennya yang teguh terhadap keselamatan dengan melatih o1-mini menggunakan teknik penyelarasan dan keselamatan yang sama yang digunakan untuk o1-preview. Model tersebut menunjukkan ketahanan jailbreak yang luar biasa 59% lebih tinggi pada versi internal dataset StrongREJECT dibandingkan dengan GPT-4o. Sebelum penerapan, OpenAI melakukan penilaian risiko keselamatan yang cermat untuk o1-mini, dengan mematuhi pendekatan ketat yang sama terhadap kesiapsiagaan, tim merah eksternal, dan evaluasi keselamatan seperti o1-preview. Hasil komprehensif dari evaluasi ini tersedia untuk umum dalam kartu sistem yang menyertainya.

Mengakui Keterbatasan dan Arah Masa Depan

Meskipun o1-mini unggul dalam penalaran STEM, sifatnya yang terspesialisasi menghasilkan pengetahuan faktual tentang topik non-STEM, seperti tanggal, biografi, dan hal-hal sepele, yang sebanding dengan LLM yang lebih kecil seperti GPT-4o mini. OpenAI secara aktif berkomitmen untuk mengatasi keterbatasan ini dalam iterasi model di masa mendatang. Selain itu, mereka sedang menjajaki cara untuk memperluas kemampuan o1-mini ke modalitas lain dan domain khusus di luar STEM.

Kesimpulan

OpenAI o1-mini merupakan langkah maju yang signifikan menuju demokratisasi akses ke kemampuan penalaran yang canggih. Efisiensi biayanya, ditambah dengan kinerja yang luar biasa dalam domain STEM, memposisikannya sebagai alat yang sangat berharga untuk berbagai macam aplikasi. Meskipun mengakui keterbatasannya saat ini, dedikasi OpenAI untuk perbaikan dan perluasan berkelanjutan menjanjikan masa depan yang cerah bagi o1-mini dan potensinya untuk membentuk kembali lanskap AI.