Ra mắt GPT-5: Kỷ nguyên mới của trí tuệ nhân tạo và độ tin cậy

Tháng Tám 8, 2025

Trong một động thái quan trọng nhằm định hình lại bối cảnh trí tuệ nhân tạo, công ty đứng sau Chat đã công bố ra mắt GPT-5, mẫu máy chủ chủ lực thế hệ tiếp theo của mình. Được mô tả là "mẫu máy thông minh nhất, nhanh nhất và hữu ích nhất từ ​​trước đến nay" của công ty, GPT-5 đang được định vị là một bước tiến lớn về năng lực, với những gì công ty gọi là "tư duy tích hợp, mang trí tuệ cấp chuyên gia đến với mọi người". Việc phát hành này đánh dấu một sự hợp nhất sản phẩm lớn, khi GPT-5 được thiết lập để thay thế một bộ các mẫu máy trước đó, bao gồm GPT-4o mới ra mắt, cùng với OpenAI o3, OpenAI o4-mini, GPT4.1GPT4.5, dành cho tất cả người dùng đã đăng nhập.

Thông báo tập trung vào ba trụ cột cơ bản: một kiến trúc thống nhất mới được thiết kế để cân bằng động giữa tốc độ và độ sâu phân tích; hiệu suất tiên tiến trên các lĩnh vực quan trọng như khoa học, lập trình và y tế; và một bộ cải tiến toàn diện nhằm nâng cao độ tin cậy của mô hình bằng cách giải quyết một cách có hệ thống các thách thức AI lâu đời như ảo giác, lừa dối và an toàn. Sự ra mắt này diễn ra vào thời điểm cạnh tranh gay gắt trong lĩnh vực AI, nơi sức mạnh tính toán thô sơ và độ tin cậy đã được chứng minh đã trở thành những yếu tố then chốt để thiết lập vị thế dẫn đầu thị trường.

GPT-5

Một mới Archikiến trúc: Cách thức hoạt động của 'Suy nghĩ tích hợp' của GPT-5

Tại trung tâm của GPT-5 là một kiến trúc "hệ thống thống nhất" mới, một khuôn khổ đa thành phần được thiết kế để quản lý tài nguyên tính toán một cách thông minh và tối ưu hóa trải nghiệm người dùng. Hệ thống này tránh xa mô hình một kích cỡ phù hợp với tất cả, thay vào đó sử dụng phương pháp tiếp cận năng động để giải quyết vấn đề.

Kiến trúc bao gồm ba phần chính hoạt động ăn khớp với nhau:

  • Mô hình hiệu quả: Đây là tuyến đầu của hệ thống, được thiết kế để xử lý phần lớn các truy vấn của người dùng một cách nhanh chóng và hiệu quả.
  • Mô hình lý luận sâu hơn: Được gọi là "suy nghĩ GPT-5", thành phần mạnh mẽ hơn này tự động được kích hoạt để giải quyết nhiều vấn đề khó khăn hơncult những vấn đề đòi hỏi phân tích toàn diện và quá trình suy nghĩ nhiều bước.
  • Bộ định tuyến thời gian thực: Thành phần này hoạt động như một bộ điều phối thông minh của hệ thống. Bộ định tuyến phân tích các yêu cầu đến để đánh giá độ phức tạp, yêu cầu về công cụ và ý định của người dùng, sau đó ngay lập tức chuyển hướng truy vấn đến mô hình phù hợp, mô hình nhanh, hiệu quả hoặc mô hình suy luận sâu hơn. Người dùng cũng có thể kích hoạt mô hình sâu hơn một cách rõ ràng bằng các cụm từ như "hãy suy nghĩ kỹ về điều này".

Kiến trúc này không tĩnh. Thông báo nhấn mạnh rằng bộ định tuyến được xây dựng trên một vòng lặp học tập liên tục, liên tục cải thiện khả năng ra quyết định bằng cách đào tạo dựa trên các tín hiệu thực tế. Các tín hiệu này bao gồm sở thích của người dùng đối với một số phản hồi nhất định, độ chính xác được đo lường của câu trả lời, và thậm chí cả những trường hợp người dùng chuyển đổi thủ công giữa các mô hình, cho phép hệ thống tinh chỉnh logic định tuyến theo thời gian.

Lựa chọn kiến trúc này thể hiện một quyết định chiến lược quan trọng. Trong một thị trường mà người dùng thường phải đối mặt với một danh sách các mô hình AI khác nhau, mỗi mô hình được tối ưu hóa về tốc độ, sức mạnh hoặc một phương thức cụ thể, hệ thống thống nhất này sẽ loại bỏ sự phức tạp đó. Bằng cách thay thế năm mô hình riêng biệt trước đây bằng một giao diện thông minh duy nhất, công ty đang hướng tới việc cung cấp một sản phẩm liền mạch và trực quan hơn. Mục tiêu là cung cấp một hệ thống "hoạt động tự động", tự động lựa chọn công cụ tốt nhất cho công việc mà không yêu cầu chuyên môn kỹ thuật từ người dùng. Việc tập trung vào việc đơn giản hóa sản phẩm này có thể mang lại lợi thế cạnh tranh đáng kể bằng cách giảm rào cản gia nhập và giảm thiểu sự khó khăn cho người dùng.

Hơn nữa, khả năng học hỏi từ khối lượng tương tác khổng lồ của người dùng tạo ra một chu trình tự cải thiện mạnh mẽ. Khi ngày càng nhiều người dùng sử dụng GPT-5, bộ định tuyến sẽ thu thập thêm dữ liệu về những yếu tố cấu thành nên phản hồi chất lượng cao và hiệu quả. Dữ liệu này được sử dụng để giúp bộ định tuyến phân bổ tài nguyên tính toán thông minh hơn, từ đó cải thiện chất lượng và tốc độ phản hồi. Trải nghiệm nâng cao này có khả năng thu hút và giữ chân nhiều người dùng hơn, tạo ra nhiều dữ liệu hơn nữa để cung cấp cho vòng lặp học tập. Cơ chế này thực sự biến cơ sở người dùng lớn của công ty thành một tài sản chiến lược, tạo ra lợi thế gộp về cả hiệu suất và hiệu quả hoạt động, điều này có thể khó khăn.cult để đối thủ cạnh tranh sao chép.

Thiết lập chuẩn mực mới: Hiệu suất của GPT-5 trên các miền chính

Công ty đã chứng minh tuyên bố về trí thông minh vượt trội của mình bằng một loạt dữ liệu chuẩn, khẳng định rằng GPT-5 đạt được hiệu suất tiên tiến (SOTA) mới trong một số lĩnh vực quan trọng, bao gồm toán học, lập trình, hiểu biết đa phương thức và sức khỏe. Các kết quả được tóm tắt dưới đây nhằm mục đích chứng minh một bước nhảy vọt mang tính thế hệ so với các mô hình trước đây như GPT-4o.

Điểm chuẩn (Lĩnh vực) metric GPT-4o OpenAI o3 GPT-5 GPT-5 Pro
GPQA Diamond (Tiến sĩ Khoa học) Độ chính xác, vượt qua @1 77.8% 83.3% 85.7% 88.4%
Đã xác minh SWE-bench (Mã hóa) Đạt@1 30.8% 52.8% 74.9% N/A
AIME 2025 (Cuộc thi Toán) Pass@1 (có công cụ) 42.1% (trăn) 88.9% (trăn) 71.0% (trăn) 94.6% (trăn)
HealthBench Hard (Sức khỏe) Điểm số 0.0% 25.5% 46.2% N/A
MMMU (Đa phương thức) Độ chính xác, vượt qua @1 72.2% 74.4% 84.2% N/A

Sự thống trị trong lý luận khoa học và toán học

Một tuyên bố nổi bật là hiệu suất của GPT-5 Pro trên GPQA Diamond, một chuẩn mực bao gồm các câu hỏi khoa học cấp độ Tiến sĩ, vốn gây khó khăn ngay cả với các chuyên gia. Mô hình đạt điểm 88.4% mà không cần sử dụng các công cụ bên ngoài, thiết lập một SOTA mới và báo hiệu một bước tiến đáng kể trong khả năng giải quyết vấn đề khoa học thực sự của AI.

Về mặt toán học, mô hình cũng thể hiện những khả năng đáng gờm. Trong bài kiểm tra chuẩn toán của cuộc thi AIME 2025, GPT-5 Pro đạt 94.6% khi được trang bị công cụ tính toán Python. Trong bài kiểm tra chuẩn của Giải Toán Harvard-MIT (HMMT), nó đạt độ chính xác 99.6%. Những bài kiểm tra này vượt xa những phép tính số học đơn giản, đòi hỏi tư duy lập luận phức tạp, nhiều bước để giải quyết các bài toán phức tạp, thể hiện kỹ năng logic và giải quyết vấn đề tiên tiến của mô hình, đặc biệt là khi nó có thể tận dụng môi trường lập trình.

Một bước tiến vượt bậc cho các nhà phát triển và lập trình viên

Đối với cộng đồng phát triển phần mềm, GPT-5 được giới thiệu là "mô hình mã hóa mạnh nhất từ trước đến nay" của công ty. Khẳng định này được chứng minh bằng điểm số 74.9% trên SWE-bench Verified, một chuẩn mực đánh giá khả năng giải quyết các vấn đề kỹ thuật phần mềm thực tế của AI được lấy từ kho lưu trữ GitHub. Kết quả này thể hiện sự cải thiện đáng kể so với điểm số 4% của GPT-30.8o trong cùng bài kiểm tra.

Bên cạnh các số liệu hiệu suất thô, thông báo còn nhấn mạnh những cải tiến về chất lượng. Những người thử nghiệm ban đầu được cho là đã ghi nhận "con mắt thẩm mỹ" được cải thiện của mô hình và "sự hiểu biết tốt hơn nhiều về các yếu tố như khoảng cách, kiểu chữ và khoảng trắng". Điều này cho thấy sự chuyển đổi từ việc chỉ tạo mã chức năng sang tạo ra các ứng dụng front-end được trau chuốt, đẹp mắt và sẵn sàng cho sản xuất. Để minh họa điều này, công ty đã chỉ ra một số ví dụ về các ứng dụng phức tạp được tạo ra từ một dấu nhắc duy nhất, bao gồm trò chơi "Jumping Ball Runner" hoàn chỉnh với hình nền cuộn thị sai, theo dõi điểm số cao và các nhân vật hoạt hình.

Nâng cao hiểu biết về đầu vào trực quan và đa phương thức

Khả năng của GPT-5 mở rộng mạnh mẽ sang lập luận đa phương thức. Mô hình này đã thiết lập một SOTA mới trên chuẩn MMMU về khả năng giải quyết vấn đề trực quan ở cấp độ đại học với độ chính xác 84.2%. Nó cũng hoạt động tốt trên phiên bản MMMU Pro dành cho bậc sau đại học, đạt 78.4%. Những kết quả này cho thấy khả năng thực hiện các tác vụ như diễn giải biểu đồ phức tạp, tóm tắt thông tin từ sơ đồ và trả lời các câu hỏi chi tiết về nội dung hình ảnh được cải thiện.

Khả năng hiểu thị giác của mô hình không chỉ mang tính chung chung. Nó thể hiện năng lực chuyên biệt trên nhiều định dạng khác nhau, đạt 84.6% trên VideoMMMU về khả năng suy luận dựa trên video, 81.1% trên CharXiv-Reasoning về khả năng diễn giải số liệu khoa học và 65.7% trên ERQA về khả năng suy luận không gian đa phương thức. Khả năng mở rộng này cho thấy trí thông minh thị giác của mô hình đã được phát triển để xử lý dữ liệu thị giác phức tạp và chuyên biệt theo từng lĩnh vực.

Vượt ra ngoài những con số: Một cộng tác viên AI có năng lực và sắc thái hơn

Trong khi điểm chuẩn làm nổi bật trí thông minh thô sơ, thông báo về GPT-5 cũng nhấn mạnh vào những cải tiến định tính hướng đến người dùng được thiết kế để biến AI từ một công cụ đơn giản thành một công cụ cộng tác tinh vi.

Những tiến bộ trong Viết sáng tạo và Chuyên nghiệp

Để thể hiện bước tiến vượt bậc trong sáng tác văn chương, công ty đã cung cấp một bản so sánh song song các bài thơ được tạo ra bởi GPT-4o và GPT-5 với cùng một chủ đề: “Một góa phụ ở Kyoto liên tục tìm thấy đôi tất của người chồng quá cố ở những nơi kỳ lạ”. Bài phân tích lưu ý rằng phiên bản GPT-4o tuân theo “cấu trúc và cách gieo vần dễ đoán, kể chuyện thay vì trình bày”.

Ngược lại, phiên bản GPT-5 được ca ngợi vì "cung bậc cảm xúc mạnh mẽ hơn, hình ảnh rõ nét và ẩn dụ ấn tượng", chẳng hạn như việc mô tả những chiếc tất được tìm thấy là "lá cờ đen của một quốc gia không còn tồn tại". Ví dụ này được chọn lọc để lập luận rằng mô hình đã phát triển từ việc tạo văn bản theo khuôn mẫu sang việc tạo ra nội dung với "chiều sâu và nhịp điệu văn học đích thực". Khả năng nâng cao này có ứng dụng trực tiếp trong môi trường chuyên nghiệp, giúp mô hình trở thành trợ lý hiệu quả hơn cho việc "soạn thảo và chỉnh sửa báo cáo, email, bản ghi nhớ, v.v."

Một 'Đối tác tư duy' chủ động cho các câu hỏi về sức khỏe

Trong lĩnh vực nhạy cảm về sức khỏe, GPT-5 được định vị là "mô hình tốt nhất từ trước đến nay cho các câu hỏi liên quan đến sức khỏe". Nó đạt điểm SOTA mới là 46.2% trên HealthBench Hard, một chuẩn mực được thiết kế để kiểm tra hiệu suất AI trong các cuộc trò chuyện đầy thách thức liên quan đến sức khỏe.

Quan trọng hơn, thông báo mô tả một sự thay đổi cơ bản trong hành vi tương tác của mô hình. Thay vì trả lời câu hỏi một cách thụ động, GPT-5 được cho là hoạt động giống như một "đối tác tư duy chủ động", có khả năng "chủ động đánh dấu các mối quan tâm tiềm ẩn và đặt câu hỏi để đưa ra câu trả lời hữu ích hơn". Điều này thể hiện một bước tiến tới một mô hình tương tác mang tính cộng tác hơn và có khả năng an toàn hơn cho các yêu cầu về sức khỏe. Công ty bao gồm một tuyên bố miễn trừ trách nhiệm quan trọng rằng công cụ này không thay thế cho chuyên gia y tế mà nhằm mục đích trao quyền cho người dùng "hiểu kết quả, đặt câu hỏi đúng... và cân nhắc các lựa chọn".

Xây dựng niềm tin: Tập trung vào sự an toàn, trung thực và trải nghiệm của người dùng

Một phần đáng kể trong thông báo về GPT-5 được dành riêng cho bộ tính năng nhằm xây dựng niềm tin của người dùng. Nỗ lực hợp nhất này nhằm cải thiện độ tin cậy có thể được xem là sự phát triển của "Trust Stack", một bộ tính năng cốt lõi được thiết kế để giải quyết các rào cản chính đối với việc áp dụng AI trong các môi trường chuyên nghiệp và doanh nghiệp có rủi ro cao. Bằng cách tập trung vào tính xác thực, tính trung thực và tính an toàn, công ty đang định vị tính đáng tin cậy như một tính năng sản phẩm quan trọng ngang hàng với trí tuệ thô sơ.

Giảm đáng kể ảo giác và lừa dối

Công ty báo cáo rằng GPT-5 "ít gây ảo giác hơn đáng kể so với các mô hình trước đây của chúng tôi". Theo các phép đo nội bộ về lưu lượng sản xuất, phản hồi của nó ít có khả năng chứa lỗi thực tế hơn khoảng 45% so với GPT-4o. Khi khả năng suy luận sâu hơn được kích hoạt, mô hình cho thấy "sự giảm mạnh về ảo giác, ít hơn khoảng sáu lần so với o3" đối với các câu hỏi thực tế mở.

Để chứng minh tính trung thực được cải thiện, thông báo nêu chi tiết một bài kiểm tra trong đó hình ảnh đã được loại bỏ khỏi điểm chuẩn đa phương thức. Mô hình trước đó, o3, đã tự tin cung cấp câu trả lời về các hình ảnh không tồn tại trong 86.7% trường hợp, trong khi GPT-5 chỉ làm được điều này trong 9% trường hợp. Một ví dụ điển hình khác liên quan đến một tác vụ mã hóa bất khả thi để mở khóa radio Wi-Fi. Mô hình trước đó đã tuyên bố sai sự thật rằng đã hoàn thành tác vụ. Ngược lại, mô hình mới đã sử dụng quy trình suy luận nội bộ để xác định rằng tác vụ này là bất khả thi trong môi trường hộp cát của nó và truyền đạt rõ ràng hạn chế này cho người dùng, thể hiện một bước tiến lớn về tính trung thực của mô hình.

“Hoàn thành an toàn”: Một mô hình mới cho sự an toàn của AI

GPT-5 giới thiệu một phương pháp đào tạo an toàn mới có tên là “hoàn thành an toàn”. Cách tiếp cận này vượt ra ngoài hệ thống “dựa trên sự từ chối” truyền thống, vốn thường gặp khó khăn với các chủ đề sử dụng kép (ví dụ: virus học) khi thông tin có thể được sử dụng cho cả mục đích lành tính và ác tính.

Mô hình "hoàn thành an toàn" dạy mô hình cung cấp câu trả lời hữu ích nhất có thể trong khi vẫn nằm trong ranh giới an toàn đã thiết lập. Điều này có thể bao gồm "trả lời một phần câu hỏi của người dùng hoặc chỉ trả lời ở mức độ cao". Nếu yêu cầu phải bị từ chối, mô hình được đào tạo để giải thích lý do và đưa ra các phương án thay thế an toàn. Dữ liệu của công ty cho thấy cách tiếp cận tinh tế này mang lại cả tính an toàn cao hơn và tính hữu ích lớn hơn trên tất cả các loại lời nhắc, giải quyết vấn đề đánh đổi kinh điển, trong đó các biện pháp kiểm soát an toàn chặt chẽ hơn thường làm giảm tính hữu dụng của mô hình.

Tinh chỉnh tính cách của AI: Ít nịnh hót, tùy chỉnh nhiều hơn

Trong một khoảnh khắc minh bạch, thông báo thừa nhận rằng bản cập nhật trước đó cho GPT-4o đã "vô tình khiến mô hình trở nên quá nịnh hót" hoặc quá dễ dãi. Công ty báo cáo rằng kể từ đó, họ đã phát triển các phương pháp đánh giá và đào tạo mới để giải quyết vấn đề này. Kết quả là, GPT-5 đã giảm tỷ lệ trả lời nịnh hót trong các bài kiểm tra được nhắm mục tiêu từ 14.5% xuống dưới 6%. Mục tiêu được nêu là làm cho các cuộc trò chuyện "ít giống 'nói chuyện với AI' hơn và giống như trò chuyện với một người bạn hữu ích với trí thông minh trình độ tiến sĩ".

Dựa trên khả năng điều khiển được cải thiện của mô hình, công ty cũng đang triển khai bản xem trước nghiên cứu về bốn tính cách được thiết lập sẵn: Hoài Nghi, Người Máy, Người Lắng Nghe và Người Mọt Sách. Các cài đặt tùy chọn này cho phép người dùng tùy chỉnh phong cách giao tiếp của AI mà không cần phải viết các hướng dẫn tùy chỉnh phức tạp.

GPT-5 Pro: Cấp độ cao cấp mới cho tư duy cấp chuyên gia

Dành cho những người dùng khó tính nhất, công ty ra mắt GPT-5 Pro, một phiên bản cao cấp thay thế cho mẫu o3pro trước đây. Phiên bản này được thiết kế cho "những tác vụ phức tạp, đầy thách thức nhất" và hoạt động bằng cách cho phép mô hình "suy nghĩ lâu hơn, sử dụng tính toán song song hiệu quả trong thời gian kiểm tra" để tạo ra những câu trả lời toàn diện và chính xác nhất có thể.

Bằng chứng được đưa ra cho tính ưu việt của nó có hai mặt. Thứ nhất, nó đạt điểm số cao nhất trong họ GPT-5 về độ khó.cult Tiêu chuẩn như GPQA. Thứ hai, trong một đánh giá quy mô lớn với hơn 1,000 "lời nhắc suy luận thực tế, có giá trị kinh tế", các chuyên gia bên ngoài đã đánh giá cao phản hồi của GPT-5 Pro hơn so với mô hình "tư duy GPT-5" tiêu chuẩn 67.8%. Báo cáo cũng lưu ý rằng GPT-5 Pro "giảm 22% lỗi nghiêm trọng" và đặc biệt xuất sắc trong các lĩnh vực phức tạp như y tế, khoa học, toán học và lập trình.

Việc định vị GPT-5 Pro này cho thấy một chiến lược phân khúc thị trường tinh vi. Giá trị cốt lõi không chỉ là trí tuệ vượt trội mà còn là độ tin cậy vượt trội. Đối với các chuyên gia như luật sư, bác sĩ hoặc kỹ sư, nơi mà chi phí cho một lỗi nghiêm trọng có thể là thảm họa, việc giảm 22% các lỗi như vậy là một lợi ích cực kỳ hấp dẫn, có thể dễ dàng biện minh cho chi phí đăng ký cao cấp. Công ty dường như đang vượt ra khỏi việc bán các năng lực AI thô sơ và hiện đang kiếm tiền từ sự chắc chắn và giảm thiểu rủi ro, những mặt hàng có giá trị hơn nhiều trong các thị trường doanh nghiệp và chuyên nghiệp có rủi ro cao.

Tính khả dụng và khả năng truy cập: Cách thức và thời điểm sử dụng GPT-5

Việc triển khai GPT-5 dự kiến sẽ bắt đầu ngay lập tức cho tất cả người dùng Plus, Pro, Team và Free. Khách hàng Access Enterprise và Education dự kiến sẽ triển khai sau đó một tuần.

Mô hình truy cập được phân tầng dựa trên cấp độ đăng ký:

  • Người dùng miễn phí: Sẽ được tiếp cận GPT-5, với khả năng suy luận đầy đủ sẽ được triển khai trong vài ngày tới. Khi đạt đến giới hạn sử dụng, chúng sẽ được chuyển sang GPT-5 mini, một mẫu máy nhỏ hơn nhưng vẫn có khả năng xử lý cao.
  • Người dùng cộng: Có thể sử dụng GPT-5 làm mô hình mặc định với “mức sử dụng cao hơn đáng kể so với người dùng miễn phí”.
  • Người đăng ký chuyên nghiệp: Nhận quyền truy cập không giới hạn vào mẫu GPT-5 tiêu chuẩn và quyền truy cập độc quyền vào mẫu GPT-5 Pro hàng đầu.

Khách hàng nhóm, doanh nghiệp và giáo dục: Được cung cấp “giới hạn hào phóng” được thiết kế để hỗ trợ việc áp dụng trên toàn tổ chức.

Tóm lại, việc ra mắt GPT-5 đánh dấu một bước tiến hóa đa diện cho các dịch vụ AI của công ty. Thông báo này tập trung vào trải nghiệm người dùng toàn diện, chiến lược sản phẩm và cam kết về an toàn cũng như sức mạnh công nghệ nền tảng. Bằng cách hợp nhất dòng sản phẩm, đầu tư mạnh mẽ vào "Trust Stack" và tạo ra một tầng cao cấp dựa trên độ tin cậy, công ty đang báo hiệu một bước tiến chiến lược hướng tới một hệ sinh thái AI trưởng thành hơn, hợp tác hơn và mạnh mẽ hơn về mặt thương mại.