| Điểm chuẩn (Lĩnh vực) |
metric |
GPT-4o |
OpenAI o3 |
GPT-5 |
GPT-5 Pro |
| GPQA Diamond (Tiến sĩ Khoa học) |
Độ chính xác, vượt qua @1 |
77.8% |
83.3% |
85.7% |
88.4% |
| Đã xác minh SWE-bench (Mã hóa) |
Đạt@1 |
30.8% |
52.8% |
74.9% |
N/A |
| AIME 2025 (Cuộc thi Toán) |
Pass@1 (có công cụ) |
42.1% (trăn) |
88.9% (trăn) |
71.0% (trăn) |
94.6% (trăn) |
| HealthBench Hard (Sức khỏe) |
Điểm số |
0.0% |
25.5% |
46.2% |
N/A |
| MMMU (Đa phương thức) |
Độ chính xác, vượt qua @1 |
72.2% |
74.4% |
84.2% |
N/A |
Sự thống trị trong lý luận khoa học và toán học
Một tuyên bố nổi bật là hiệu suất của GPT-5 Pro trên GPQA Diamond, một chuẩn mực bao gồm các câu hỏi khoa học cấp độ Tiến sĩ, vốn gây khó khăn ngay cả với các chuyên gia. Mô hình đạt điểm 88.4% mà không cần sử dụng các công cụ bên ngoài, thiết lập một SOTA mới và báo hiệu một bước tiến đáng kể trong khả năng giải quyết vấn đề khoa học thực sự của AI.
Về mặt toán học, mô hình cũng thể hiện những khả năng đáng gờm. Trong bài kiểm tra chuẩn toán của cuộc thi AIME 2025, GPT-5 Pro đạt 94.6% khi được trang bị công cụ tính toán Python. Trong bài kiểm tra chuẩn của Giải Toán Harvard-MIT (HMMT), nó đạt độ chính xác 99.6%. Những bài kiểm tra này vượt xa những phép tính số học đơn giản, đòi hỏi tư duy lập luận phức tạp, nhiều bước để giải quyết các bài toán phức tạp, thể hiện kỹ năng logic và giải quyết vấn đề tiên tiến của mô hình, đặc biệt là khi nó có thể tận dụng môi trường lập trình.
Một bước tiến vượt bậc cho các nhà phát triển và lập trình viên
Đối với cộng đồng phát triển phần mềm, GPT-5 được giới thiệu là "mô hình mã hóa mạnh nhất từ trước đến nay" của công ty. Khẳng định này được chứng minh bằng điểm số 74.9% trên SWE-bench Verified, một chuẩn mực đánh giá khả năng giải quyết các vấn đề kỹ thuật phần mềm thực tế của AI được lấy từ kho lưu trữ GitHub. Kết quả này thể hiện sự cải thiện đáng kể so với điểm số 4% của GPT-30.8o trong cùng bài kiểm tra.
Bên cạnh các số liệu hiệu suất thô, thông báo còn nhấn mạnh những cải tiến về chất lượng. Những người thử nghiệm ban đầu được cho là đã ghi nhận "con mắt thẩm mỹ" được cải thiện của mô hình và "sự hiểu biết tốt hơn nhiều về các yếu tố như khoảng cách, kiểu chữ và khoảng trắng". Điều này cho thấy sự chuyển đổi từ việc chỉ tạo mã chức năng sang tạo ra các ứng dụng front-end được trau chuốt, đẹp mắt và sẵn sàng cho sản xuất. Để minh họa điều này, công ty đã chỉ ra một số ví dụ về các ứng dụng phức tạp được tạo ra từ một dấu nhắc duy nhất, bao gồm trò chơi "Jumping Ball Runner" hoàn chỉnh với hình nền cuộn thị sai, theo dõi điểm số cao và các nhân vật hoạt hình.
Nâng cao hiểu biết về đầu vào trực quan và đa phương thức
Khả năng của GPT-5 mở rộng mạnh mẽ sang lập luận đa phương thức. Mô hình này đã thiết lập một SOTA mới trên chuẩn MMMU về khả năng giải quyết vấn đề trực quan ở cấp độ đại học với độ chính xác 84.2%. Nó cũng hoạt động tốt trên phiên bản MMMU Pro dành cho bậc sau đại học, đạt 78.4%. Những kết quả này cho thấy khả năng thực hiện các tác vụ như diễn giải biểu đồ phức tạp, tóm tắt thông tin từ sơ đồ và trả lời các câu hỏi chi tiết về nội dung hình ảnh được cải thiện.
Khả năng hiểu thị giác của mô hình không chỉ mang tính chung chung. Nó thể hiện năng lực chuyên biệt trên nhiều định dạng khác nhau, đạt 84.6% trên VideoMMMU về khả năng suy luận dựa trên video, 81.1% trên CharXiv-Reasoning về khả năng diễn giải số liệu khoa học và 65.7% trên ERQA về khả năng suy luận không gian đa phương thức. Khả năng mở rộng này cho thấy trí thông minh thị giác của mô hình đã được phát triển để xử lý dữ liệu thị giác phức tạp và chuyên biệt theo từng lĩnh vực.
Vượt ra ngoài những con số: Một cộng tác viên AI có năng lực và sắc thái hơn
Trong khi điểm chuẩn làm nổi bật trí thông minh thô sơ, thông báo về GPT-5 cũng nhấn mạnh vào những cải tiến định tính hướng đến người dùng được thiết kế để biến AI từ một công cụ đơn giản thành một công cụ cộng tác tinh vi.
Những tiến bộ trong Viết sáng tạo và Chuyên nghiệp
Để thể hiện bước tiến vượt bậc trong sáng tác văn chương, công ty đã cung cấp một bản so sánh song song các bài thơ được tạo ra bởi GPT-4o và GPT-5 với cùng một chủ đề: “Một góa phụ ở Kyoto liên tục tìm thấy đôi tất của người chồng quá cố ở những nơi kỳ lạ”. Bài phân tích lưu ý rằng phiên bản GPT-4o tuân theo “cấu trúc và cách gieo vần dễ đoán, kể chuyện thay vì trình bày”.
Ngược lại, phiên bản GPT-5 được ca ngợi vì "cung bậc cảm xúc mạnh mẽ hơn, hình ảnh rõ nét và ẩn dụ ấn tượng", chẳng hạn như việc mô tả những chiếc tất được tìm thấy là "lá cờ đen của một quốc gia không còn tồn tại". Ví dụ này được chọn lọc để lập luận rằng mô hình đã phát triển từ việc tạo văn bản theo khuôn mẫu sang việc tạo ra nội dung với "chiều sâu và nhịp điệu văn học đích thực". Khả năng nâng cao này có ứng dụng trực tiếp trong môi trường chuyên nghiệp, giúp mô hình trở thành trợ lý hiệu quả hơn cho việc "soạn thảo và chỉnh sửa báo cáo, email, bản ghi nhớ, v.v."
Một 'Đối tác tư duy' chủ động cho các câu hỏi về sức khỏe
Trong lĩnh vực nhạy cảm về sức khỏe, GPT-5 được định vị là "mô hình tốt nhất từ trước đến nay cho các câu hỏi liên quan đến sức khỏe". Nó đạt điểm SOTA mới là 46.2% trên HealthBench Hard, một chuẩn mực được thiết kế để kiểm tra hiệu suất AI trong các cuộc trò chuyện đầy thách thức liên quan đến sức khỏe.
Quan trọng hơn, thông báo mô tả một sự thay đổi cơ bản trong hành vi tương tác của mô hình. Thay vì trả lời câu hỏi một cách thụ động, GPT-5 được cho là hoạt động giống như một "đối tác tư duy chủ động", có khả năng "chủ động đánh dấu các mối quan tâm tiềm ẩn và đặt câu hỏi để đưa ra câu trả lời hữu ích hơn". Điều này thể hiện một bước tiến tới một mô hình tương tác mang tính cộng tác hơn và có khả năng an toàn hơn cho các yêu cầu về sức khỏe. Công ty bao gồm một tuyên bố miễn trừ trách nhiệm quan trọng rằng công cụ này không thay thế cho chuyên gia y tế mà nhằm mục đích trao quyền cho người dùng "hiểu kết quả, đặt câu hỏi đúng... và cân nhắc các lựa chọn".
Xây dựng niềm tin: Tập trung vào sự an toàn, trung thực và trải nghiệm của người dùng
Một phần đáng kể trong thông báo về GPT-5 được dành riêng cho bộ tính năng nhằm xây dựng niềm tin của người dùng. Nỗ lực hợp nhất này nhằm cải thiện độ tin cậy có thể được xem là sự phát triển của "Trust Stack", một bộ tính năng cốt lõi được thiết kế để giải quyết các rào cản chính đối với việc áp dụng AI trong các môi trường chuyên nghiệp và doanh nghiệp có rủi ro cao. Bằng cách tập trung vào tính xác thực, tính trung thực và tính an toàn, công ty đang định vị tính đáng tin cậy như một tính năng sản phẩm quan trọng ngang hàng với trí tuệ thô sơ.
Giảm đáng kể ảo giác và lừa dối
Công ty báo cáo rằng GPT-5 "ít gây ảo giác hơn đáng kể so với các mô hình trước đây của chúng tôi". Theo các phép đo nội bộ về lưu lượng sản xuất, phản hồi của nó ít có khả năng chứa lỗi thực tế hơn khoảng 45% so với GPT-4o. Khi khả năng suy luận sâu hơn được kích hoạt, mô hình cho thấy "sự giảm mạnh về ảo giác, ít hơn khoảng sáu lần so với o3" đối với các câu hỏi thực tế mở.
Để chứng minh tính trung thực được cải thiện, thông báo nêu chi tiết một bài kiểm tra trong đó hình ảnh đã được loại bỏ khỏi điểm chuẩn đa phương thức. Mô hình trước đó, o3, đã tự tin cung cấp câu trả lời về các hình ảnh không tồn tại trong 86.7% trường hợp, trong khi GPT-5 chỉ làm được điều này trong 9% trường hợp. Một ví dụ điển hình khác liên quan đến một tác vụ mã hóa bất khả thi để mở khóa radio Wi-Fi. Mô hình trước đó đã tuyên bố sai sự thật rằng đã hoàn thành tác vụ. Ngược lại, mô hình mới đã sử dụng quy trình suy luận nội bộ để xác định rằng tác vụ này là bất khả thi trong môi trường hộp cát của nó và truyền đạt rõ ràng hạn chế này cho người dùng, thể hiện một bước tiến lớn về tính trung thực của mô hình.
“Hoàn thành an toàn”: Một mô hình mới cho sự an toàn của AI
GPT-5 giới thiệu một phương pháp đào tạo an toàn mới có tên là “hoàn thành an toàn”. Cách tiếp cận này vượt ra ngoài hệ thống “dựa trên sự từ chối” truyền thống, vốn thường gặp khó khăn với các chủ đề sử dụng kép (ví dụ: virus học) khi thông tin có thể được sử dụng cho cả mục đích lành tính và ác tính.
Mô hình "hoàn thành an toàn" dạy mô hình cung cấp câu trả lời hữu ích nhất có thể trong khi vẫn nằm trong ranh giới an toàn đã thiết lập. Điều này có thể bao gồm "trả lời một phần câu hỏi của người dùng hoặc chỉ trả lời ở mức độ cao". Nếu yêu cầu phải bị từ chối, mô hình được đào tạo để giải thích lý do và đưa ra các phương án thay thế an toàn. Dữ liệu của công ty cho thấy cách tiếp cận tinh tế này mang lại cả tính an toàn cao hơn và tính hữu ích lớn hơn trên tất cả các loại lời nhắc, giải quyết vấn đề đánh đổi kinh điển, trong đó các biện pháp kiểm soát an toàn chặt chẽ hơn thường làm giảm tính hữu dụng của mô hình.
Tinh chỉnh tính cách của AI: Ít nịnh hót, tùy chỉnh nhiều hơn
Trong một khoảnh khắc minh bạch, thông báo thừa nhận rằng bản cập nhật trước đó cho GPT-4o đã "vô tình khiến mô hình trở nên quá nịnh hót" hoặc quá dễ dãi. Công ty báo cáo rằng kể từ đó, họ đã phát triển các phương pháp đánh giá và đào tạo mới để giải quyết vấn đề này. Kết quả là, GPT-5 đã giảm tỷ lệ trả lời nịnh hót trong các bài kiểm tra được nhắm mục tiêu từ 14.5% xuống dưới 6%. Mục tiêu được nêu là làm cho các cuộc trò chuyện "ít giống 'nói chuyện với AI' hơn và giống như trò chuyện với một người bạn hữu ích với trí thông minh trình độ tiến sĩ".
Dựa trên khả năng điều khiển được cải thiện của mô hình, công ty cũng đang triển khai bản xem trước nghiên cứu về bốn tính cách được thiết lập sẵn: Hoài Nghi, Người Máy, Người Lắng Nghe và Người Mọt Sách. Các cài đặt tùy chọn này cho phép người dùng tùy chỉnh phong cách giao tiếp của AI mà không cần phải viết các hướng dẫn tùy chỉnh phức tạp.
GPT-5 Pro: Cấp độ cao cấp mới cho tư duy cấp chuyên gia
Dành cho những người dùng khó tính nhất, công ty ra mắt GPT-5 Pro, một phiên bản cao cấp thay thế cho mẫu o3pro trước đây. Phiên bản này được thiết kế cho "những tác vụ phức tạp, đầy thách thức nhất" và hoạt động bằng cách cho phép mô hình "suy nghĩ lâu hơn, sử dụng tính toán song song hiệu quả trong thời gian kiểm tra" để tạo ra những câu trả lời toàn diện và chính xác nhất có thể.
Bằng chứng được đưa ra cho tính ưu việt của nó có hai mặt. Thứ nhất, nó đạt điểm số cao nhất trong họ GPT-5 về độ khó.cult Tiêu chuẩn như GPQA. Thứ hai, trong một đánh giá quy mô lớn với hơn 1,000 "lời nhắc suy luận thực tế, có giá trị kinh tế", các chuyên gia bên ngoài đã đánh giá cao phản hồi của GPT-5 Pro hơn so với mô hình "tư duy GPT-5" tiêu chuẩn 67.8%. Báo cáo cũng lưu ý rằng GPT-5 Pro "giảm 22% lỗi nghiêm trọng" và đặc biệt xuất sắc trong các lĩnh vực phức tạp như y tế, khoa học, toán học và lập trình.
Việc định vị GPT-5 Pro này cho thấy một chiến lược phân khúc thị trường tinh vi. Giá trị cốt lõi không chỉ là trí tuệ vượt trội mà còn là độ tin cậy vượt trội. Đối với các chuyên gia như luật sư, bác sĩ hoặc kỹ sư, nơi mà chi phí cho một lỗi nghiêm trọng có thể là thảm họa, việc giảm 22% các lỗi như vậy là một lợi ích cực kỳ hấp dẫn, có thể dễ dàng biện minh cho chi phí đăng ký cao cấp. Công ty dường như đang vượt ra khỏi việc bán các năng lực AI thô sơ và hiện đang kiếm tiền từ sự chắc chắn và giảm thiểu rủi ro, những mặt hàng có giá trị hơn nhiều trong các thị trường doanh nghiệp và chuyên nghiệp có rủi ro cao.
Tính khả dụng và khả năng truy cập: Cách thức và thời điểm sử dụng GPT-5
Việc triển khai GPT-5 dự kiến sẽ bắt đầu ngay lập tức cho tất cả người dùng Plus, Pro, Team và Free. Khách hàng Access Enterprise và Education dự kiến sẽ triển khai sau đó một tuần.
Mô hình truy cập được phân tầng dựa trên cấp độ đăng ký:
- Người dùng miễn phí: Sẽ được tiếp cận GPT-5, với khả năng suy luận đầy đủ sẽ được triển khai trong vài ngày tới. Khi đạt đến giới hạn sử dụng, chúng sẽ được chuyển sang GPT-5 mini, một mẫu máy nhỏ hơn nhưng vẫn có khả năng xử lý cao.
- Người dùng cộng: Có thể sử dụng GPT-5 làm mô hình mặc định với “mức sử dụng cao hơn đáng kể so với người dùng miễn phí”.
- Người đăng ký chuyên nghiệp: Nhận quyền truy cập không giới hạn vào mẫu GPT-5 tiêu chuẩn và quyền truy cập độc quyền vào mẫu GPT-5 Pro hàng đầu.
Khách hàng nhóm, doanh nghiệp và giáo dục: Được cung cấp “giới hạn hào phóng” được thiết kế để hỗ trợ việc áp dụng trên toàn tổ chức.
Tóm lại, việc ra mắt GPT-5 đánh dấu một bước tiến hóa đa diện cho các dịch vụ AI của công ty. Thông báo này tập trung vào trải nghiệm người dùng toàn diện, chiến lược sản phẩm và cam kết về an toàn cũng như sức mạnh công nghệ nền tảng. Bằng cách hợp nhất dòng sản phẩm, đầu tư mạnh mẽ vào "Trust Stack" và tạo ra một tầng cao cấp dựa trên độ tin cậy, công ty đang báo hiệu một bước tiến chiến lược hướng tới một hệ sinh thái AI trưởng thành hơn, hợp tác hơn và mạnh mẽ hơn về mặt thương mại.