Gemini 3.1: Tính năng, điểm chuẩn, thử nghiệm thực tế và hơn thế nữa

Tìm hiểu Gemini 3.1 Pro, model suy luận mới nhất của Google. Khám phá tính năng, điểm chuẩn, thử nghiệm thực tế và so sánh với Claude Opus 4.6, Claude Sonnet 4.6 và GPT-5.2.

Đã cập nhật 12 thg 5, 2026 · 11 phút đọc

Cuộc đua AI trong tháng 2/2026 diễn ra gay gắt bất thường. Sau khi Anthropic phát hành Claude Opus 4.6 và Claude Sonnet 4.6 chỉ cách nhau hai tuần, Google đáp trả bằng Gemini 3.1 Pro.

Google cho biết đây là một bản phát hành đáng kể, chủ yếu vì Gemini 3.1 Pro đã hơn gấp đôi hiệu năng suy luận so với Gemini 3 Pro, theo đánh giá của bài kiểm tra ARC-AGI-2, nơi nó đạt điểm xác minh 77,1%

ARC-AGI-2 quan trọng vì nó kiểm tra khả năng nhận diện mẫu mới thay vì kiến thức ghi nhớ. Bài kiểm tra được thiết kế để các model không thể đơn giản "luyện" theo cách truyền thống để đạt điểm cao. Vì vậy, việc điểm số tăng gấp đôi trên bài này có ý nghĩa hơn nhiều so với, chẳng hạn, MMLU. Chúng ta sẽ đi sâu hơn về tầm quan trọng của kết quả này ở phần sau, và thậm chí tự thử nghiệm.

Để tìm hiểu thêm về hệ sinh thái AI của Google, tôi khuyến nghị xem các hướng dẫn về NotebookLM và Nano Banana 2, cũng như hướng dẫn về Gemini CLI. Ngoài ra, hãy xem hướng dẫn của chúng tôi về một đối thủ rất mạnh của Gemini, GPT-5.4 của OpenAI.

Chúng tôi cập nhật cho độc giả những tin tức mới nhất về AI qua The Median, bản tin miễn phí vào thứ Sáu hằng tuần, tóm lược các câu chuyện chính trong tuần. Đăng ký để nắm bắt nhanh chỉ trong vài phút mỗi tuần:

Gemini 3.1 Pro là gì?

Gemini 3.1 Pro là model chủ lực mới nhất của Google, phát hành bản xem trước vào ngày 19/02/2026. Đây là lần đầu Google dùng bước nhảy phiên bản ".1" (mọi bản cập nhật giữa chu kỳ trước đó đều dùng ".5"), báo hiệu một nâng cấp tập trung vào trí tuệ thay vì mở rộng tính năng diện rộng. Điều này hợp lý vì Gemini 3 vốn đã là một bản phát hành toàn diện với kiến trúc đa phương thức mới.

Bài đăng ra mắt của Google giải thích rằng năng lực trí tuệ đứng sau những đột phá khoa học gần đây của Deep Think, bao gồm bác bỏ một giả thuyết toán học tồn tại hàng thập kỷ, nay đã được chắt lọc vào 3.1 Pro để sử dụng hằng ngày.

Deep Think về mặt kỹ thuật đã có trước đó, nhưng chỉ nếu bạn có gói Ultra. Google muốn bạn tin rằng mục tiêu luôn là đưa năng lực suy luận này vào sử dụng hằng ngày ở quy mô lớn, nhưng chỉ đến bản phát hành Gemini 3.1 này thì có vẻ họ mới thực sự làm được. Có lẽ Google phát hiện ra mức 249 USD/tháng cho gói Ultra vượt quá sẵn sàng chi trả của đa số người dùng.

Có gì mới ở Gemini 3.1 Pro?

Dưới đây là các cải tiến chính trong lần phát hành này:

Khả năng suy luận mạnh hơn nhiều

Như tôi đã đề cập ở phần mở đầu, thay đổi lớn nằm ở suy luận trừu tượng và đa bước. Hiệu năng của Gemini 3.1 trên ARC-AGI-2 đã hơn gấp đôi so với Gemini 3 Pro chỉ trong khoảng ba tháng.

Ngoài các cải thiện trên ARC-AGI-2, model còn đạt điểm cao nhất từng ghi nhận trên GPQA Diamond, một bài đo dành cho kiến thức khoa học bậc cao học.

Gemini 3.1 Pro luôn sử dụng "tư duy động": tự động áp dụng suy luận chuỗi tư duy dựa trên độ phức tạp của tác vụ.

API đã giới thiệu tham số thinking_level mới với bốn thiết lập: low, medium (mới trong 3.1), high và max, giúp nhà phát triển cân bằng giữa tốc độ và chiều sâu.

Hiệu năng agent tốt hơn nhiều

Một xu hướng rõ ràng trong lần phát hành này là các điểm chuẩn liên quan đến agent tăng mạnh. Model nay đạt điểm cao hơn nhiều ở nghiên cứu web tự động, tác vụ đa bước dài hạn và lập trình trên terminal so với phiên bản tiền nhiệm.

Với những ai xây dựng quy trình mà model vận hành với giám sát tối thiểu (gỡ lỗi, nghiên cứu web, thu thập dữ liệu), các cải thiện này có ý nghĩa thực tế.

Hiệu năng agent tăng xấp xỉ gấp đôi so với Gemini 3 Pro trong một số hạng mục, và hiện dẫn trước GPT-5.2 và Claude ở phần lớn các điểm chuẩn này.

Đầu ra động dựa trên mã

Điểm này thu hút sự chú ý của tôi. Google nhấn mạnh rằng Gemini 3.1 Pro có thể tạo SVG động và bảng điều khiển tương tác hoàn toàn bằng mã. Vì đây là các định nghĩa toán học chứ không phải hình ảnh đã render, chúng có thể phóng to mà không giảm chất lượng và nhẹ hơn rất nhiều so với tệp video.

Các ví dụ khi ra mắt khá ấn tượng: một website portfolio dựa trên chủ đề của Wuthering Heights, một bảng điều khiển hàng không vũ trụ trực tiếp lấy dữ liệu đo đạc của ISS, và một bầy sáo đá 3D bay lượn với theo dõi chuyển động tay và nhạc nền sinh thành.

Đây là đầu ra dạng mã, không phải hình ảnh, nghĩa là có thể chỉnh sửa, nhúng và rất nhẹ.

Khắc phục triệt để việc cắt cụt đầu ra

Điểm này ít hào nhoáng hơn nhưng có lẽ liên quan trực tiếp hơn với bất kỳ ai từng dùng Gemini 3 Pro trong sản xuất. Một phàn nàn thường gặp với phiên bản trước là nó hay cắt ngang phản hồi dài khi đang sinh.

Phản hồi của người dùng sau khi ra mắt cho thấy 3.1 Pro đã khắc phục vấn đề này. Có người cho biết đã tạo một phản hồi cực lớn trong một lần chạy mà không hề bị cắt cụt.

JetBrains cũng xác nhận cải thiện chất lượng thực sự với model mới, lưu ý rằng nó cho ra "kết quả đáng tin cậy hơn" với "ít token đầu ra" hơn. Mức hiệu quả đó, cộng thêm việc không bị cắt cụt, tạo khác biệt rõ rệt cho sinh nội dung dài.

Điểm chuẩn của Gemini 3.1 Pro

Google cho thấy Gemini 3.1 Pro dẫn đầu ở 13/16 trong số những bài kiểm tra điểm chuẩn quan trọng nhất, bao gồm các bài liên quan đến suy luận trừu tượng, tác vụ agent và khoa học bậc cao học. (Gemini 3 Pro vốn đã dẫn trước ở một vài điểm chuẩn này.)

Dưới đây là cách model mới nhất so kè với các bản phát hành lớn khác của tháng 2/2026.

Như bạn thấy, và như tôi đã đề cập, kết quả về suy luận trừu tượng là nổi bật nhất. Gemini 3.1 Pro dẫn trước rõ rệt so với Opus 4.6, trong khi Opus 4.6 lại dẫn trước đáng kể so với GPT-5.2. Điều này thể hiện sự dịch chuyển thực sự so với vị thế của các model hàng đầu chỉ một năm trước.

Những điểm Claude vẫn nhỉnh hơn

Tôi muốn nói thẳng điều này vì rất dễ bị cuốn theo những con số lớn. Các model Claude thực sự dẫn đầu ở một số mảng quan trọng:

Kỹ nghệ phần mềm thực tế: Opus 4.6 nhỉnh hơn đôi chút trên SWE-bench Verified. (Gần như hòa, nhưng Anthropic giành cờ.)
Suy luận có hỗ trợ công cụ: Opus 4.6 vượt Gemini 3.1 Pro khi cả hai cùng được dùng công cụ bên ngoài, gợi ý tích hợp công cụ mạnh hơn.
Công việc nặng về tri thức: Sonnet 4.6 dẫn trước xa trên GDPval-AA, đo lường các tác vụ có giá trị kinh tế như mô hình tài chính và nghiên cứu. Đây là khoảng cách đáng chú ý.
Sử dụng máy tính qua GUI: Claude dẫn rõ rệt ở đây, chưa có đối trọng tương đương công bố từ Gemini.

Bức tranh trung thực: Gemini 3.1 Pro hiện là model tốt nhất cho suy luận trừu tượng, kiến thức khoa học và độ bao phủ đa phương thức. Các model Claude vẫn đi trước ở mảng công việc tri thức, điều phối công cụ và vận hành phần mềm qua giao diện đồ họa.

Thử nghiệm Gemini 3.1 Pro

Để xem các cải tiến này chuyển hóa thế nào sang suy luận thực tế, tôi chạy ba bài thử nhằm thăm dò các khía cạnh khác nhau của tư duy trừu tượng:

Bài thử 1: Câu đố chuỗi ký hiệu

Để xem Gemini 3.1 Pro xử lý kiểu suy luận ARC-AGI-2 ra sao, chúng tôi dùng một câu đố suy ra quy tắc đơn giản. Model phải suy ra cả quy tắc màu và quy tắc hình từ ví dụ, mà không được cho biết luật tường minh.

Đây là prompt của tôi:

You are shown these transformations:

- [Red Circle] → [Blue Triangle]
- [Blue Square] → [Red Circle]
- [Red Square] → [Blue Circle]
- [Blue Triangle] → ?

Gemini 3.1 Pro trả lời đúng [Red Square]. Model xác định độc lập cả hai quy tắc: màu chuyển đổi qua lại (Red ↔ Blue) và hình luân phiên (Square → Circle → Triangle → Square). Sau đó, nó lần theo logic từng bước, cho thấy Blue Triangle trở thành Red (đổi màu) và Square (hình kế tiếp), đúng kiểu suy luận kết hợp mà bài thử này nhắm tới.

Bài thử 2: Chuỗi bị ngụy trang

Bài thử này kiểm tra loại trừ giả thuyết qua nhiều lớp. Chúng tôi đưa cho model hai dãy và yêu cầu nhận diện dãy đầu là gì (số phân hoạch từ OEIS) và tìm ra hai phép biến đổi được áp dụng để tạo ra dãy thứ hai.

Here are two sequences. The second was derived from the first in two separate steps. 
Identify the named mathematical sequence that Sequence A belongs to, and work out 
both transformations that were applied to produce Sequence B.

Sequence A: 1, 1, 2, 3, 5, 7, 11, 15, 22, 30, 42, 56, 77
Sequence B: 2, 3, 5, 8, 3, 9, 8, 1, 7, 9, 8, 7

Explain your reasoning step by step.

Gemini 3.1 Pro xác định đúng Dãy A là các số phân hoạch (A000041) và giải thích số phân hoạch biểu thị điều gì trong lý thuyết số. Sau đó, nó lần lượt thực hiện cả hai phép biến đổi: đầu tiên là cộng các cặp liên tiếp để sinh ra dãy trung gian, rồi tính tổng chữ số lặp đến một chữ số (digital root) cho từng kết quả. Model kiểm chứng từng bước với Dãy B, thể hiện đầy đủ chuỗi suy luận từ dãy gốc đến đầu ra cuối.

Bài thử 3: Mạng đồng hồ hỏng

Bài thử này nhắm vào kiểm tra tính nhất quán ràng buộc. Sáu chiếc đồng hồ được nối mạng, mỗi chiếc áp dụng một độ lệch cố định 20 phút. Một chiếc bị hỏng. Model phải lần theo cả hai đường truyền trong mạng và phát hiện mâu thuẫn.

Đây là prompt tôi dùng:

Six clocks (A, B, C, D, E, and F) are connected in a network. Each clock applies 
a fixed offset to the time it receives. A is the root and shows 12:00. You observe:

- B receives from A and shows 12:20
- C receives from A and shows 11:40
- D receives from B and shows 12:40
- E receives from C and shows 11:00
- F receives from both D and E and shows 13:00

There is exactly one broken clock in the network. Based on the pattern of offsets, 
identify which clock is broken, and give two possible answers for what it should 
actually show (one for each path through the network).

Explain your reasoning step by step.

Gemini 3.1 Pro xác định đúng F là chiếc đồng hồ bị hỏng và suy ra hai giá trị khả dĩ cho nó: 13:00 theo đường từ D và 10:00 theo đường từ E. Model xem đường bên phải là cộng cố định +20 phút và đường bên trái là dãy số học −20, −40, rồi −60 phút.

Trải nghiệm thực tế với Gemini 3.1 Pro

Ngoài các bài kiểm tra suy luận trừu tượng, tôi muốn xem model xử lý những tác vụ thực tế thể hiện các tính năng mới như thế nào.

Sinh SVG động

Google nhấn mạnh mạnh mẽ đầu ra hình ảnh dựa trên mã trong lần ra mắt, nên tôi thử trực tiếp với một yêu cầu đơn giản, không dùng mẫu.

Đây là prompt tôi dùng:

Create an animated SVG loading spinner with three bouncing dots. Make it smooth, 
professional, and suitable for embedding on a website. Output only the SVG code.

Gemini 3.1 Pro trả về mã SVG sạch với hoạt ảnh CSS. Đầu ra là bộ tải ba chấm hoạt hình với nhịp nảy so le, đúng như yêu cầu. Render chuẩn ngay lần đầu trong trình duyệt, không cần chỉnh sửa. Kích thước tệp rất nhỏ, và vì là đồ họa vector dựa trên mã nên phóng to sắc nét ở mọi kích thước.

Đây là một trong những tính năng nghe có vẻ màu mè trên thông cáo báo chí nhưng thực tế lại rất hữu dụng. Đồ họa động nhẹ, có thể nhúng, phóng to vô hạn từ prompt văn bản là công cụ vững chắc cho dựng mẫu frontend hoặc tạo nhanh asset trực quan.

Làm sao để truy cập Gemini 3.1 Pro?

Gemini 3.1 Pro hiện ở giai đoạn xem trước. Google cho biết sẽ sớm ra mắt chính thức sau khi tiếp thu phản hồi và cải thiện thêm các quy trình agent.

Dưới đây là các cách truy cập chính:

Gemini CLI

Gemini CLI là một agent dòng lệnh mã nguồn mở cho phép model truy cập trực tiếp vào môi trường cục bộ của bạn. Cài đặt bằng đoạn mã sau:

npm install -g @google/gemini-cli
# Or run directly: npx @google/gemini-cli

CLI dùng vòng lặp ReAct, nghĩa là có thể viết mã, chạy, đọc lỗi, sửa và tự lặp. Với hiệu năng lập trình terminal được cải thiện của 3.1 Pro, vòng lặp này đáng tin cậy hơn thấy rõ. Gói miễn phí cho phép 60 yêu cầu mỗi phút và 1.000 yêu cầu mỗi ngày.

Gemini API

Gemini API cung cấp quyền truy cập lập trình trực tiếp vào Gemini 3.1 Pro.

ID model bạn cần là: gemini-3.1-pro-preview

Đây là một chút mã Python để bạn bắt đầu:

from google import genai

client = genai.Client()
response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="Your prompt here"
)
print(response.text)

Mức giá giống với Gemini 3 Pro Preview.

Kích thước ngữ cảnh	Đầu vào (mỗi 1M token)	Đầu ra (mỗi 1M token)
≤200K token	$2.00	$12.00
>200K token	$4.00	$18.00

Tham số thinking_level chấp nhận low, medium, high hoặc max. Các công cụ hỗ trợ gồm Google Search, ngữ cảnh URL, thực thi mã và tìm kiếm tệp. Tôi sẽ nói về chi tiết cửa sổ ngữ cảnh ở phần so sánh bên dưới.

NotebookLM

NotebookLM hiện chạy bằng Gemini 3.1 Pro cho người đăng ký Google AI Pro và Ultra. NotebookLM phản hồi chỉ dựa trên tài liệu bạn tải lên, khiến nó trở thành công cụ nghiên cứu rất hữu ích khi bạn muốn model bám sát vào tài liệu cụ thể.

Truy cập cho người dùng phổ thông

Google đã bắt đầu triển khai Gemini 3.1 Pro trên các sản phẩm người dùng và nhà phát triển, nhưng chưa công bố một bảng quy đổi đơn giản kiểu "gói X = model Y". Thực tế, bạn sẽ thấy 3.1 Pro trong ứng dụng Gemini và API khi nó được triển khai, với AI Ultra cung cấp quyền truy cập rộng nhất.

Gói	Giá theo tháng (Mỹ)	Những gì bạn nhận được liên quan đến Gemini
Miễn phí	$0	Gemini 3 Flash trong ứng dụng Gemini, tính năng giới hạn
Google AI Pro	$19.99	Hạn mức cao hơn và truy cập model Gemini Pro trong ứng dụng Gemini
Google AI Ultra	$249.99 (thường giảm còn $124.99 trong 3 tháng đầu)	Hạn mức cao nhất, chế độ Deep Think và quyền truy cập các tính năng AI mới nhất của Google trên nhiều sản phẩm

Gemini 3.1 Pro so với các model Claude

Các bản phát hành tháng 2/2026 từ Google và Anthropic tạo ra một tập hợp đánh đổi rất thú vị. Không có trường hợp model nào thắng tuyệt đối. Lựa chọn đúng phụ thuộc rất nhiều vào thứ bạn đang xây dựng.

Khoảng cách giá đáng để cân nhắc. Gemini 3.1 Pro rẻ hơn nhiều cả ở đầu vào và đầu ra so với Claude Opus 4.6. Nếu bạn chạy API khối lượng lớn, đây không phải là chênh lệch nhỏ.

Chọn Gemini 3.1 Pro khi:

Suy luận trừu tượng và phân tích khoa học là ưu tiên
Bạn cần hỗ trợ đa phương thức gốc mạnh mẽ cho video và âm thanh trong cùng một model
Bạn muốn cửa sổ ngữ cảnh 1M đầy đủ ở dạng ổn định, không beta
Hiệu quả chi phí quan trọng, đặc biệt ở quy mô lớn

Chọn Claude Opus 4.6 khi:

Bạn cần tối đa 128K token đầu ra (giới hạn của Gemini là 64K)
Dàn dựng đa agent là trọng tâm quy trình của bạn (Agent Teams là khác biệt thực sự)
Sử dụng máy tính qua GUI là quan trọng
Bạn làm công việc nặng về tri thức, nơi chất lượng nghiên cứu chuyên sâu là then chốt

Chọn Claude Sonnet 4.6 khi:

Công việc tri thức, phân tích tài liệu hoặc phân tích tài chính là nhiệm vụ chính
Bạn cần hiệu năng gần mức đầu bảng với mức giá thấp hơn
Bạn đã dùng hệ công cụ của Anthropic và Sonnet là mặc định của bạn

Các trường hợp sử dụng Gemini 3.1 Pro

Dựa trên điểm chuẩn và thử nghiệm thực tế, đây là những lĩnh vực Gemini 3.1 Pro đặc biệt phù hợp:

Nghiên cứu và phân tích khoa học: Hiệu năng GPQA Diamond mạnh cộng cửa sổ ngữ cảnh 1M giúp thực tế cho tổng quan tài liệu, tạo giả thuyết và tổng hợp xuyên nhiều bài báo cùng lúc.
Agent nghiên cứu tự động: Điểm chuẩn agent cải thiện chuyển hóa thành tác vụ đa bước thực tế như thu thập thông tin từ nhiều nguồn, kiểm chứng dữ kiện và tạo báo cáo có cấu trúc với giám sát tối thiểu.

Phân tích và tái cấu trúc codebase: Cửa sổ ngữ cảnh lớn cộng suy luận được nâng cấp giúp xử lý các tác vụ như phát hiện bất nhất kiến trúc giữa các module hoặc lần lỗi qua nhiều tệp.

Phân tích nội dung đa phương thức: Hỗ trợ gốc cho video và âm thanh cho phép phân tích các buổi họp ghi hình, trích xuất insight từ video bài giảng, hoặc xử lý podcast mà không cần tiền xử lý.

Triển khai sản xuất nhạy cảm về chi phí: Với chi phí khoảng một nửa so với Claude Opus 4.6, đây là lựa chọn hợp lý cho suy luận khối lượng lớn, nơi chất lượng suy luận quan trọng nhưng ngân sách hạn chế.

Dựng mẫu và tài sản trực quan: Đầu ra động dựa trên mã sinh spinner tải, biểu đồ động hoặc bảng điều khiển tương tác từ prompt văn bản có thể nhúng trực tiếp.

Kết luận

Gemini 3.1 Pro là ví dụ điển hình cho hướng phát triển của các model này. Ít tập trung vào kiểu đầu vào mới, chú trọng hơn vào suy luận tốt hơn, agent đáng tin cậy hơn và xử lý ngữ cảnh dài hơn. Dù chỉ là bản ".1", các cải thiện điểm chuẩn và mối liên hệ với Deep Think khiến nó mang cảm giác như bước tiến lớn về cách các hệ thống này tư duy.

Với các đội ngũ xây sản phẩm thực, không có model "tốt nhất" duy nhất. Gemini 3.1 Pro hoạt động tốt cho suy luận khoa học, agent nghiên cứu và phân tích codebase lớn, đặc biệt khi xét đến giá và hỗ trợ video. Claude vẫn tốt hơn cho công việc tri thức và sử dụng máy tính qua màn hình, còn GPT-5.3-Codex vẫn thắng ở một số bài kiểm tra lập trình.

Câu hỏi thú vị là chuyện gì sẽ xảy ra khi nó rời giai đoạn xem trước. Google cho biết họ đang làm việc trên các cải tiến về agent trước khi phát hành chính thức. Nếu những điều đó ra mắt song hành với các nâng cấp suy luận hiện tại, khoảng cách giữa các model nghiên cứu như Deep Think và model dùng hằng ngày sẽ nhỏ lại. Còn hiện tại, đây là thời điểm tốt để thử nhiều model và xây hệ thống có thể tận dụng điểm mạnh của từng cái.

Để bắt đầu với các công cụ AI của Google, hãy xem khóa học Nhập môn Google Gemini của chúng tôi. Để làm việc với API bằng Python, hướng dẫn Làm việc với Gemini API bao quát những điều thiết yếu.