AI tạo ảnh từ prompt AI: Khám phá khả năng thực sự của DALL-E 3 và Bing Image Creator

Table of Contents

Trong thời đại số hóa bùng nổ, các mô hình tạo ảnh bằng trí tuệ nhân tạo (AI) đang phát triển với tốc độ chóng mặt, liên tục phá vỡ những ranh giới về sự sáng tạo và khả năng tái tạo hình ảnh. Tuy nhiên, một thực tế không thể phủ nhận là chúng vẫn thường xuyên “cho ra lò” những tác phẩm đáng ngờ, đôi khi kém chất lượng hoặc không đúng ý. Nhiều người dùng có xu hướng đổ lỗi cho chính những prompt (lời nhắc) do con người tạo ra – cho rằng chúng quá mơ hồ, không rõ ràng, hay thiếu tính chuyên môn.

Nhưng liệu vấn đề có thực sự nằm ở kỹ năng “prompting” của chúng ta? Hay bản thân các mô hình AI tạo ảnh vẫn còn những giới hạn nhất định trong việc hiểu và diễn giải ý đồ? Để tìm kiếm câu trả lời thỏa đáng, chúng tôi đã tiến hành một thử nghiệm độc đáo: yêu cầu một AI (Gemini) tạo ra các prompt, sau đó sử dụng những prompt đó để một AI khác (DALL-E 3 thông qua Bing Image Creator) tạo ra hình ảnh. Mục tiêu là kiểm chứng xem liệu AI có dễ dàng làm việc hơn khi các “hướng dẫn” cũng đến từ một trí tuệ nhân tạo hay không. Đây là một khám phá sâu sắc về mức độ “thông minh” và khả năng diễn giải thực sự của các công cụ AI tạo ảnh hàng đầu hiện nay.

Quy tắc vàng của cuộc thử nghiệm AI tạo ảnh này

Khi các mô hình tạo ảnh bằng AI lần đầu xuất hiện cách đây vài năm, nhiều người đã lo ngại rằng chúng sẽ sớm thay thế hoàn toàn những người làm trong lĩnh vực truyền thông thị giác. Tuy nhiên, điều này đã không xảy ra như dự đoán. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, nhưng hình ảnh do AI tạo ra thường rất khó đoán, đặc biệt nếu bạn yêu cầu một thứ gì đó phức tạp hơn một chút (ví dụ, AI thường gặp khó khăn với việc tạo ra hình ảnh bàn tay một cách chính xác).

Bạn có thể đổ lỗi cho chính các mô hình AI vì vấn đề này, hoặc cho sự thiếu nhất quán trong kỹ năng tạo prompt của con người. Cách tự nhiên nhất để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có mang lại kết quả tốt hơn nếu bạn nhập các prompt cũng do AI tạo ra.

Để kiểm tra giả thuyết này, chúng tôi đã sử dụng Gemini – một mô hình ngôn ngữ lớn từ Google – để tạo ra một loạt các prompt. Điểm đặc biệt là các prompt này sẽ tránh trực tiếp nhắc đến tên của đối tượng hoặc bức ảnh mà chúng tôi muốn tạo. Điều này sẽ giúp kiểm tra xem AI “đọc” và diễn giải hướng dẫn tốt đến mức nào. Tất nhiên, vẫn có khả năng mô hình sẽ lấy cảm hứng mạnh mẽ từ dữ liệu mà nó đã được huấn luyện (đặc biệt khi tái tạo các bức ảnh đã có sẵn), nhưng đây là một phần của thử nghiệm để đánh giá sự độc lập trong khả năng sáng tạo của AI.

Công cụ chính được lựa chọn để tạo hình ảnh trong thí nghiệm này là Bing Image Creator, một nền tảng được xây dựng dựa trên DALL-E 3 của OpenAI. Để đưa mô hình vào các thử thách thực sự, chúng tôi sẽ bắt đầu với các hình dạng đơn giản, sau đó chuyển sang các hình ảnh phức tạp hơn khi thí nghiệm tiến triển.

Nếu bạn đã từng sử dụng ChatGPT hay các mô hình tương tự, bạn sẽ nhận thấy đôi khi câu trả lời của chúng có thể rất dài dòng và không cần thiết. Với các prompt do Gemini tạo ra cũng vậy. Do đó, chúng tôi quyết định giới hạn mỗi prompt ở 500 ký tự để đảm bảo tính nhất quán và dễ quản lý trong suốt quá trình thử nghiệm.

AI xử lý các hình dạng đơn giản như thế nào?

Chúng ta sẽ bắt đầu với một hình dạng cơ bản nhất: hình vuông. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không trực tiếp nhắc đến tên của nó, và đây là những gì Gemini đã đưa ra:

“A four-sided shape with all sides of equal length. Each internal angle measures exactly 90 degrees. It’s a regular quadrilateral with parallel opposing sides.”
(“Một hình có bốn cạnh với tất cả các cạnh có chiều dài bằng nhau. Mỗi góc bên trong có số đo chính xác 90 độ. Đó là một tứ giác đều với các cạnh đối diện song song.”)

Sau khi đưa mô tả này vào DALL-E 3, chúng tôi nhận được những kết quả sau:

Một hình vuông được AI tạo ra với các đường kẻ hình học phức tạp trên nền trắng.

Đúng là một hình vuông, nhưng có vẻ như AI đã “quá đà” với phần hình học. Giờ là lúc nâng cao độ khó, chúng tôi yêu cầu AI mô tả một hình lập phương.

“A three-dimensional shape with six identical faces. Each face is a regular quadrilateral with four equal sides and four right angles. It has twelve edges of equal length and eight vertices. All angles within the shape are right angles.”
(“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có chiều dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”)

Kết quả nhận được khá bất ngờ:

Hình ảnh được AI tạo ra một khối lập phương Rubik trên nền trắng, thể hiện sự nhầm lẫn của AI.

Bạn còn nhớ chúng tôi đã nói gì về sự khó đoán của các mô hình AI không? Vâng, ở đây, DALL-E 3 đã tạo ra một hình lập phương, nhưng nó đã có chút nhầm lẫn và biến nó thành khối Rubik. Mặc dù chúng tôi đã tránh hoàn toàn từ “lập phương”, AI vẫn hiểu sai một phần – có lẽ là do sự phổ biến của món đồ chơi trí tuệ này.

Khả năng của AI với chủ thể con người trong ảnh kinh điển

Tình huống với hình lập phương cho thấy ngay cả với một mô tả chi tiết và “khách quan”, AI vẫn có thể hiểu sai những hướng dẫn khá trực tiếp. Vậy, hãy xem nó thể hiện thế nào với các mô tả do AI tạo ra về những hình ảnh kinh điển, chẳng hạn như bức ảnh “Migrant Mother” của Dorothea Lange. Đây là bức ảnh gốc:

Bức ảnh biểu tượng của Dorothea Lange chụp một người mẹ lo lắng ôm các con trong thời kỳ Đại suy thoái.

Và đây là prompt mà Gemini đã đưa ra cho bức ảnh này:

“A woman, her face etched with worry, looks off-camera. She is surrounded by her children, their faces hidden or turned away. Her hand rests near her face, conveying exhaustion and anxiety. The scene suggests poverty and hardship. The woman’s clothing is worn, and the overall composition is somber, emphasizing the weight of her circumstances.”
(“Một người phụ nữ, với khuôn mặt hằn rõ vẻ lo lắng, nhìn ra ngoài khung hình. Cô ấy được bao quanh bởi các con, khuôn mặt của chúng bị che khuất hoặc quay đi. Bàn tay cô ấy đặt gần mặt, thể hiện sự kiệt sức và lo lắng. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn, và bố cục tổng thể u ám, nhấn mạnh gánh nặng hoàn cảnh của cô ấy.”)

Đây là phiên bản diễn giải của DALL-E 3 về bức ảnh nổi tiếng này:

Hình ảnh do AI tạo ra gợi nhớ bức ảnh nổi tiếng "Migrant Mother" chụp một người phụ nữ với các con trong bối cảnh khó khăn.

Khá giống! Tuy nhiên, vẫn chưa hoàn toàn chính xác, vì DALL-E 3 rõ ràng đã bỏ qua phần “surrounded by her children, their faces hidden or turned away” (được bao quanh bởi các con, khuôn mặt của chúng bị che khuất hoặc quay đi), và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ lại làm vậy.

Bây giờ, hãy thử một thứ phức tạp hơn. Chắc hẳn bạn đã từng thấy bức ảnh mang tính biểu tượng “Lunch atop a Skyscraper” (Bữa trưa trên đỉnh nhà chọc trời):

Bức ảnh đen trắng biểu tượng chụp các công nhân đang ăn trưa trên dầm thép trên một tòa nhà chọc trời.

Đây là prompt do Gemini tạo ra:

“Eleven men sit on a steel beam, high in the air. They eat lunch, legs dangling. The beam is suspended above a sprawling city. The men appear relaxed, despite the extreme height. They wear work clothes, and the scene is captured from a slightly low angle, emphasizing the height.”
(“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không trung. Họ đang ăn trưa, chân lủng lẳng. Dầm thép được treo lơ lửng phía trên một thành phố rộng lớn. Những người đàn ông trông có vẻ thư thái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh tượng được chụp từ một góc hơi thấp, nhấn mạnh chiều cao.”)

Prompt tuyệt vời này đã mang lại kết quả cũng tuyệt vời không kém:

Hình ảnh do AI tạo ra tái hiện bức ảnh nổi tiếng về các công nhân ngồi trên dầm thép trên cao, ăn trưa.

Khi bạn bỏ qua những dấu hiệu kinh điển của một bức ảnh AI (ví dụ: các bát giống hệt nhau và các chủ thể bị “sao chép và dán”), bức ảnh này gần như kỳ lạ về bố cục và không khí tổng thể. Điều này không quá ngạc nhiên – không chỉ bức ảnh này cực kỳ phổ biến, mà nó còn thuộc phạm vi công cộng, vì vậy chúng tôi có một linh cảm mạnh mẽ rằng DALL-E 3 đã “nuốt” nội dung của nó trong quá trình huấn luyện.

Thách thức của AI với những bức ảnh phức tạp và trừu tượng

Vì đây là “bài kiểm tra” cuối cùng trong thí nghiệm, chúng tôi sẽ “gỡ găng” và đưa ra những thách thức lớn nhất! Mặc dù AI khá tốt với các chủ thể con người, nhưng nó thường trở nên lúng túng khi đối mặt với những cảnh phức tạp và “bí ẩn” hơn. Vậy, bức ảnh mang tính biểu tượng “Earthrise” (Trái Đất mọc), được chụp từ quỹ đạo Mặt Trăng trong sứ mệnh Apollo 8, sẽ như thế nào?

Bức ảnh Trái Đất chụp từ quỹ đạo Mặt Trăng, thể hiện vẻ đẹp của hành tinh chúng ta.

Đây là mô tả từ Gemini:

“A partially illuminated sphere hangs in a dark void. A smaller, gray-toned sphere rises above its horizon. The larger sphere displays mottled blues and whites, suggesting water and clouds. The stark contrast between the two spheres and the blackness emphasizes the fragility and isolation of the smaller, rising sphere”.
(“Một quả cầu được chiếu sáng một phần lơ lửng trong không gian tối. Một quả cầu nhỏ hơn, có tông màu xám, mọc lên phía trên đường chân trời của nó. Quả cầu lớn hơn hiển thị các mảng xanh và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai quả cầu và bóng tối nhấn mạnh sự mong manh và cô lập của quả cầu nhỏ hơn, đang mọc.”)

Có vẻ như Gemini đã “đánh rơi” quả bóng (hay đúng hơn là quả cầu) với mô tả này. Vì nó quá trừu tượng, chúng tôi đã thêm cụm từ “taken from a close lunar orbit” (chụp từ quỹ đạo Mặt Trăng gần) vào prompt, nhưng điều đó cũng không giúp ích nhiều:

Hình ảnh do AI tạo ra mô tả Mặt Trăng ở tiền cảnh và Trái Đất ở hậu cảnh, không giống với bức "Earthrise" gốc.

Đây là một bìa album progressive rock tuyệt vời, nhưng nó không liên quan gì đến “Earthrise”. Để kết thúc thí nghiệm, chúng tôi đã chọn bức ảnh ít nổi tiếng nhất từ trước đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:

Ảnh đen trắng về một cảnh công nghiệp với nhiều ống khói, thể hiện sự mạnh mẽ của cấu trúc.

Và đây là prompt do Gemini tạo ra cho bức ảnh trừu tượng này:

“A series of rounded, metallic industrial tanks fill the frame. Their forms are smooth and bulbous, creating a repetitive pattern. Light reflects off the surfaces, highlighting their curved shapes and creating a sense of volume. The composition emphasizes the abstract qualities of the industrial objects, focusing on form and texture rather than their function. The scene is stark and minimalist, with a strong emphasis on light and shadow.”
(“Một loạt các bồn công nghiệp kim loại, tròn trịa lấp đầy khung hình. Hình dạng của chúng trơn tru và phình ra, tạo thành một mô hình lặp lại. Ánh sáng phản chiếu trên bề mặt, làm nổi bật các hình dạng cong và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình thức và kết cấu hơn là chức năng của chúng. Cảnh tượng trần trụi và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”)

Có vẻ là một prompt tốt, hãy xem DALL-E 3 có đồng ý không:

Hình ảnh do AI tạo ra mô tả một loạt các trụ kim loại sáng bóng xếp hàng, lấp đầy màn hình, mang phong cách khoa học viễn tưởng.

Mặc dù chúng tôi đánh giá cao phong cách khoa học viễn tưởng mà AI tạo ra, nhưng nó không hề giống với bức ảnh gốc. Chúng tôi không muốn kết thúc thí nghiệm với một thất bại lớn, vì vậy chúng tôi đã quyết định “giúp đỡ” cỗ máy bằng cách thêm cụm từ “1920s photograph” (bức ảnh thập niên 1920) vào cuối prompt.

Ý nghĩ của chúng tôi là cụm từ cụ thể đó có thể giúp làm rõ bức ảnh mà chúng tôi muốn đề cập. Thật không may, AI lại một lần nữa làm chúng tôi thất vọng và tạo ra một bìa album progressive rock khác:

Hình ảnh do AI tạo ra hiển thị các hình trụ lớn, tròn ở phía trên, không tái hiện đúng bức ảnh gốc "Armco Steel".

Kết luận: AI tạo ảnh vẫn khó đoán, không phải lỗi của bạn

Những kết quả từ thí nghiệm này đã mang lại nhiều điều thú vị và một kết luận rõ ràng: AI tạo ảnh vẫn cực kỳ khó đoán, đặc biệt là với các khái niệm phức tạp và trừu tượng. Dù prompt được tạo ra bởi AI và rất chi tiết, hay do con người tạo ra và có thể chưa hoàn hảo – kết quả dường như vẫn mang tính ngẫu nhiên và khó lường.

Điều này cho thấy rằng vấn đề không hẳn nằm ở việc con người thiếu kỹ năng trong việc tạo prompt. Ngay cả khi hai cỗ máy giao tiếp với nhau bằng những mô tả hoàn hảo, DALL-E 3 vẫn có những giới hạn nhất định trong việc diễn giải và tái tạo hình ảnh theo đúng ý đồ.

Vì vậy, lần tới khi bạn cố gắng tự trách mình và khả năng tạo prompt của mình vì những kết quả không như ý, hãy nhớ rằng kết quả có thể sẽ tương tự, ngay cả khi đó là cuộc trò chuyện giữa hai trí tuệ nhân tạo. Công nghệ tạo ảnh AI vẫn đang trong giai đoạn phát triển và cải tiến không ngừng, và việc hiểu rõ những giới hạn hiện tại của nó sẽ giúp chúng ta có cái nhìn thực tế hơn về khả năng và ứng dụng của chúng trong tương lai.

Bạn có kinh nghiệm nào khi sử dụng AI tạo ảnh không? Đừng ngần ngại chia sẻ những câu chuyện và kết quả của bạn trong phần bình luận bên dưới, hoặc khám phá thêm các bài viết chuyên sâu khác của chúng tôi về công nghệ AI tại Thuthuatmienphi.net để cập nhật những kiến thức mới nhất!

Quy tắc vàng của cuộc thử nghiệm AI tạo ảnh này

AI xử lý các hình dạng đơn giản như thế nào?

Khả năng của AI với chủ thể con người trong ảnh kinh điển

Thách thức của AI với những bức ảnh phức tạp và trừu tượng

Kết luận: AI tạo ảnh vẫn khó đoán, không phải lỗi của bạn

Administrator

Related Posts

Leave a Comment Hủy