Google gần đây đã ra mắtGemini 2.5 Flash Image, một mô hình mới mạnh mẽ để tạo và chỉnh sửa hình ảnh, còn được biết đến với tên mã là Nano Banana.
Mô hình này giới thiệu các khả năng tiên tiến nhất để tạo và thao tác hình ảnh, mở ra một loạt các ứng dụng mới.
Hướng dẫn này cung cấp một bài hướng dẫn toàn diện cho các nhà phát triển muốn tích hợp Gemini 2.5 Flash Image hay còn gọi là Nano Banana vào ứng dụng của họ bằng cách sử dụngGemini Developer API.
Hướng dẫn này sẽ bao gồm:
- Sử dụng Nano Banana trong AI Studio
- Thiết lập dự án
- Tạo hình ảnh
- Chỉnh sửa hình ảnh
- Khôi phục ảnh
- Nhiều hình ảnh đầu vào
- Chỉnh sửa hình ảnh hội thoại
- Các phương pháp hay nhất và tạo lời nhắc hiệu quả
- Ví dụ và nguồn cảm hứng từ cộng đồng
- Tài nguyên
Đây là một ví dụ về những gì bạn sẽ xây dựng trong hướng dẫn này:
prompt="Khôi phục và tô màu hình ảnh này từ năm 1932"response=client.models.generate_content(model="gemini-2.5-flash-image-preview",contents=[prompt,image],)
Hãy bắt đầu nào!
Nội dung chính
1) Sử dụng Nano Banana trong Google AI Studio
Trong khi người dùng cuối có thể truy cập Nano Banana trongứng dụng Gemini, môi trường tốt nhất để các nhà phát triển tạo mẫu và kiểm tra lời nhắc làGoogle AI Studio.
AI Studio là một sân chơi để thử nghiệm với tất cả các mô hình AI có sẵn trước khi viết bất kỳ mã nào, và nó cũng là điểm vào để xây dựng với Gemini API.
Bạn có thể sử dụng Nano Banana miễn phí trong AI Studio.
Để bắt đầu, hãy truy cậpaistudio.google.com, đăng nhập bằng tài khoản Google của bạn và chọnNano Bananatừ bộ chọn mô hình.
Để truy cập trực tiếp, hãy sử dụng liên kết này để bắt đầu một phiên mới với mô hình:
Mẹo:
Bạn cũng có thể vibe code các ứng dụng web Nano Banana trực tiếp trong AI Studio tại ai.studio/apps , hoặc khám phá mã và phối lại một trong cácứng dụng hiện có.
2) Thiết lập dự án
Để làm theo hướng dẫn này, bạn sẽ cần những thứ sau:
- Một khóa API từGoogle AI Studio.
- Thiết lập thanh toán cho dự án của bạn.
- Google Gen AI SDK choPythonhoặcJavaScript/TypeScript.
Bước A:
Tạo Khóa API
Làm theo các bước sau:
- Trong Google AI Studio, nhấp vàoGet API keytrong bảng điều hướng bên trái.
- Trên trang tiếp theo, nhấp vàoCreate API key.
- Chọn một dự án Google Cloud hiện có hoặc tạo một dự án mới.
Dự án này được sử dụng để quản lý thanh toán cho việc sử dụng API.
Khi quá trình hoàn tất, khóa API của bạn sẽ được hiển thị.
Sao chép và lưu trữ nó một cách an toàn.
Bước B:
Bật Thanh toán
Trong khi tạo mẫu trong AI Studio là miễn phí, việc sử dụng mô hình qua API là một dịch vụ trả phí.
Bạn phải bật thanh toán trên dự án Google Cloud của mình.
Trong màn hình quản lý khóa API, nhấp vàoSet up billingbên cạnh dự án của bạn và làm theo hướng dẫn trên màn hình.
Nano Banana có giá bao nhiêu?
Tạo hình ảnh với Nano Banana có giá$0.039 mỗi hình ảnh*.
Với $1, bạn có thể tạo khoảng 25 hình ảnh.
* Giá chính thức là $0.30/1M token đầu vào và $30/1M token đầu ra.
Một hình ảnh đầu ra tiêu chuẩn 1024x1024px tiêu thụ 1290 token, tương đương với $0.039 mỗi hình ảnh.
Để biết chi tiết, hãy tham khảobảng giá Gemini 2.5 Flash Image.
Bước C:
Cài đặt SDK
Chọn SDK cho ngôn ngữ bạn ưa thích.
Python:
pip install-U google-genai # Cài đặt thư viện Pillow để thao tác hình ảnh pip installPillow
JavaScript / TypeScript:
npm install @google/genai
Các ví dụ sau đây sử dụng Python SDK để minh họa.
Các đoạn mã tương đương đểsử dụng Nano Banana trong JavaScriptđược cung cấp trongGitHub Gistnày.
3) Tạo Ảnh từ Văn Bản
Sử dụng Nano Banana để tạo một hoặc nhiều hình ảnh từ một lời nhắc văn bản mô tả.
Sử dụng ID mô hìnhgemini-2.5-flash-image-preview
cho tất cả các yêu cầu API.
fromgoogleimportgenaifromPILimportImagefromioimportBytesIO# Cấu hình client với khóa API của bạnclient=genai.Client(api_key="YOUR_API_KEY")prompt="""Tạo một hình ảnh chân thực về một con mèo màu cam với đôi mắt xanh lục, đang ngồi trên ghế sofa."""# Gọi API để tạo nội dungresponse=client.models.generate_content(model="gemini-2.5-flash-image-preview",contents=prompt,)# Phản hồi có thể chứa cả dữ liệu văn bản và hình ảnh.
# Lặp qua các phần để tìm và lưu hình ảnh.forpartinresponse.candidates[0].content.parts:ifpart.textisnotNone:print(part.text)elifpart.inline_dataisnotNone:image=Image.open(BytesIO(part.inline_data.data))image.save("cat.png")
Đầu ra:
Mô hình này là đa phương thức, vì vậy phản hồi được cấu trúc dưới dạng một danh sách cácphần
có thể chứa dữ liệu văn bản và hình ảnh đan xen (inline_data
).
Đoạn mã trên lặp qua các phần này để trích xuất và lưu hình ảnh được tạo.
4) Chỉnh Sửa Ảnh với Đầu vào Văn bản và Hình ảnh
Cung cấp một hình ảnh hiện có cùng với một lời nhắc văn bản để thực hiện chỉnh sửa.
Mô hình này xuất sắc trong việc duy trì tính nhất quán về nhân vật và nội dung từ hình ảnh đầu vào.
fromgoogleimportgenaifromPILimportImagefromioimportBytesIOclient=genai.Client(api_key="YOUR_API_KEY")prompt="""Sử dụng hình ảnh con mèo, tạo một góc nhìn chân thực ở cấp độ đường phố về con mèo đang đi dọc theo vỉa hè trong một khu phố ở Thành phố New York, với những cái chân mờ của người đi bộ và những chiếc taxi màu vàng lướt qua ở phía nền."""image=Image.open("cat.png")# Truyền cả lời nhắc văn bản và hình ảnh vào danh sách 'contents'response=client.models.generate_content(model="gemini-2.5-flash-image-preview",contents=[prompt,image],)forpartinresponse.candidates[0].content.parts:ifpart.textisnotNone:print(part.text)elifpart.inline_dataisnotNone:image=Image.open(BytesIO(part.inline_data.data))image.save("cat2.png")
Đầu vào và Đầu ra:
5) Phục chế ảnh với Nano Banana
Một trong những ứng dụng mạnh mẽ của mô hình là phục chế ảnh.
Chỉ với một lời nhắc đơn giản, nó có thể phục hồi và tô màu những bức ảnh cũ với kết quả ấn tượng.
fromgoogleimportgenaifromPILimportImagefromioimportBytesIOclient=genai.Client(api_key="YOUR_API_KEY")prompt="Restore and colorize this image from 1932"image=Image.open("lunch.jpg")# "Lunch atop a Skyscraper, 1932"response=client.models.generate_content(model="gemini-2.5-flash-image-preview",contents=[prompt,image],)forpartinresponse.candidates[0].content.parts:ifpart.textisnotNone:print(part.text)elifpart.inline_dataisnotNone:image=Image.open(BytesIO(part.inline_data.data))image.save("lunch-restored.png")
Ảnh gốc và Kết quả:
6) Làm việc với nhiều hình ảnh đầu vào
Bạn có thể cung cấp nhiều hình ảnh làm đầu vào cho các tác vụ chỉnh sửa phức tạp hơn.
fromgoogleimportgenaifromPILimportImagefromioimportBytesIOclient=genai.Client(api_key="YOUR_API_KEY")prompt="Make the girl wear this t-shirt.
Leave the background unchanged."image1=Image.open("girl.png")image2=Image.open("tshirt.png")response=client.models.generate_content(model="gemini-2.5-flash-image-preview",contents=[prompt,image1,image2],)forpartinresponse.candidates[0].content.parts:ifpart.textisnotNone:print(part.text)elifpart.inline_dataisnotNone:image=Image.open(BytesIO(part.inline_data.data))image.save("girl-with-tshirt.png")
Đầu vào 1 & 2 và Kết quả:
7) Chỉnh sửa ảnh theo hội thoại
Để tinh chỉnh lặp đi lặp lại, bạn có thể sử dụng phiênchats
để duy trì ngữ cảnh qua nhiều yêu cầu.
Điều này cho phép bạn chỉnh sửa hình ảnh một cách đối thoại.
fromgoogleimportgenaifromPILimportImagefromioimportBytesIOclient=genai.Client(api_key="YOUR_API_KEY")# Create a chatchat=client.chats.create(model="gemini-2.5-flash-image-preview")# Make the first image editresponse1=chat.send_message(["Change the cat to a bengal cat, leave everything else the same",Image.open("cat.png"),])# display / save image...# Continue chatting and editingresponse2=chat.send_message("The cat should wear a funny party hat")# display / save image...
Đầu vào và Đầu ra 1 & 2:
Mẹo:
Nếu bạn nhận thấy các tính năng hình ảnh bắt đầu xuống cấp hoặc “trôi dạt” sau nhiều lần chỉnh sửa hội thoại, tốt nhất nên bắt đầu phiên mới với hình ảnh mới nhất và một gợi ý chi tiết, tổng hợp hơn để duy trì độ trung thực cao.
8) Thực hành Tốt nhất và mẹo nhắc lệnh cho Nano Banana
Để đạt kết quả tốt nhất với Nano Banana, hãy làm theo các hướng dẫn nhắc lệnh sau:
- Siêu Cụ thể:Bạn càng cung cấp nhiều chi tiết về chủ đề, màu sắc, ánh sáng và bố cục, bạn càng kiểm soát nhiều hơn đầu ra.
- Cung cấp Ngữ cảnh và Mục đích:Giải thích mục đích hoặc tâm trạng mong muốn của hình ảnh.
Sự hiểu biết về ngữ cảnh của mô hình sẽ ảnh hưởng đến các lựa chọn sáng tạo của nó. - Lặp lại và Tinh chỉnh:Đừng mong đợi sự hoàn hảo ngay lần đầu tiên.
Sử dụng khả năng hội thoại của mô hình để thực hiện các thay đổi gia tăng và tinh chỉnh hình ảnh của bạn. - Sử dụng Hướng dẫn Từng bước:Đối với các cảnh phức tạp, hãy chia nhỏ gợi ý của bạn thành một loạt hướng dẫn rõ ràng, tuần tự.
- Sử dụng Cách Diễn đạt Tích cực:Thay vì các gợi ý tiêu cực như “không có xe hơi”, hãy mô tả cảnh mong muốn một cách tích cực:
“một con đường vắng vẻ, hoang vắng không có dấu hiệu giao thông”. - Điều khiển Máy ảnh:Sử dụng các thuật ngữ nhiếp ảnh và điện ảnh để chỉ đạo bố cục, chẳng hạn như “góc rộng”, “ảnh cận cảnh” hoặc “góc nhìn thấp”.
Để tìm hiểu sâu hơn về các thực hành tốt nhất, hãy xem lại bài đăng trên blog chính thức vềthực hành nhắc lệnh tốt nhấtvàhướng dẫn nhắc lệnhtrong tài liệu.
9) Ví dụ Cộng đồng và Nguồn cảm hứng
Khám phá những gì cộng đồng đang xây dựng với Nano Banana:
- Thay đổi góc nhìn máy ảnh bởi@henrydaubrez:Bài đăng X
- Học ít mẫu cho thiết kế nhân vật nhất quán bởi@multimodalart:Bài đăng X
- Biến đổi Google Maps “Mũi tên đỏ nhìn thấy gì” bởi@tokumin:Bài đăng X
- Tạo hình ảnh từ chú thích hình que bởi@yachimat_manga:Bài đăng X
- Tạo mô hình 3D từ hình ảnh tĩnh bởi@deedydas:Bài đăng X
- Tạo trải nghiệm AR dựa trên vị trí bởi@bilawalsidhu:Bài đăng X
- Chuyển đổi bản đồ 2D thành đồ họa 3D bởi@demishassabis:Bài đăng X
10) Tài nguyên và Bước tiếp theo
Hướng dẫn này đã bao gồm những điều cơ bản về xây dựng với Nano Banana hay còn gọi là Gemini 2.5 Flash Image.
Bạn đã học cách thiết lập môi trường, tạo và chỉnh sửa hình ảnh, và áp dụng các kỹ thuật nâng cao.
Bây giờ bạn đã sẵn sàng để bắt đầu kết hợp các khả năng mạnh mẽ này vào các dự án của riêng mình.
Để đọc thêm, hãy xem các tài nguyên chính thức:
- Google AI Studio
- Tài liệu API Gemini
- Tài liệu API Nano Banana Gemini
- Cách nhắc lệnh Tạo hình ảnh Gemini 2.5 Flash để đạt kết quả tốt nhất
- Hướng dẫn nhắc lệnh tài liệu Nano Banana.
- Ứng dụng Pixshoptrong AI Studio