Cách một phần mềm AI đã thay đổi những trận chiến trên màn ảnh rộng một lần và mãi mãi
Trong hơn 20 năm qua, một phần mềm dựng phim đã tạo ra những đội quân tự động và thông minh trên màn ảnh rộng, góp phần trong thành công của những kiệt tác như Chúa tể những chiếc nhẫn hay Avengers: Endgame.
Một đội quân xâm lược với quân số khoảng 10.000 đang hành quân xuyên qua một cơn bão để tập hợp lại phía trước một pháo đài được xây dựng trên sườn núi.
Nhìn từ xa, những chiến binh trông nhỏ bé như những con kiến nhưng lại chứa đầy sự uy hiếp khi được tổ chức tốt đến mức đáng sợ. Tất cả giương giáo và phát ra tiếng gầm gừ qua những chiếc răng nanh, và khi sét đánh, số lượng quân số đông đảo của chúng cuối cùng đã được tiết lộ. Khi cuộc chiến bắt đầu, những mũi tên bay vùn vụt, các thanh kiếm tìm đường tới những tấm khiên. Thi thể của cả hai bên đều rơi xuống đất.
Hình ảnh đẫm máu này là cảnh trận chiến ở Helm's Deep, trong bộ phim The Lord of the Rings: The Two Towers (Chúa tể những chiếc nhẫn: Hai tòa tháp). Đây là một trong những trận chiến trên màn ảnh đầu tiên được hỗ trợ bởi Massive, một phần mềm được thiết kế đặc biệt cho loạt phim Chúa tể những chiếc nhẫn. Vai trò của nó là tạo ra các đội quân bằng máy tính, sử dụng trí thông minh nhân tạo để mô phỏng các trận chiến thực tế trên quy mô vô cùng khủng khiếp.
Trong quá khứ, những bộ phim như Chiến tranh giữa các vì sao đã tạo ra một cuộc cách mạng về hiệu ứng đặc biệt, hay các hãng phim như Pixar đã định hình việc sử dụng máy vi tính để tạo ra các kiệt tác, thì phần mềm Massive do kỹ sư Stephen Regelous phát triển đã thay đổi cách vận hành của cả ngành công nghiệp điện ảnh hiện đại. Phần mềm do ông tạo ra đã giúp nâng cao hiệu ứng hình ảnh của những trận chiến hoành tráng mà khán giả luôn mong đợi trên màn ảnh rộng. Còn bản thân Regelous đã nhận được Giải thưởng của Viện Hàn lâm về Thành tựu Khoa học và Kỹ thuật cho cống hiến này của mình.
Dù các hiệu ứng tiên tiến không phải lúc nào cũng giữ được giá trị của nó qua thời gian, nhưng 20 năm sau, khi nhìn lại lũ Orc Uruk-hai trong trận chiến ở Helm's Deep, chúng vẫn trông giống như thật và đầy tính đe dọa.
Và trong vài năm qua, Massive vẫn tiếp tục giúp tạo ra và hoàn thiện một số cảnh chiến đấu mang tính biểu tượng, bao gồm cả mùa cuối cùng của Game of Thrones và siêu phẩm Avengers: Endgame.
"Bạn có thể thấy tác động của nó chỉ bằng cách nhìn vào các bộ phim đã sử dụng phần mềm này trong 20 năm qua. Đó là một danh sách khá lớn các bộ phim và chương trình truyền hình nổi tiếng", Bob Thompson, giám đốc sáng lập của Trung tâm Truyền hình và Văn hóa Đại chúng Bleier tại Đại học Syracuse, cho biết.
Tất nhiên, Massive giờ đang phải cạnh tranh với vô số đối thủ khác, trong một thế giới hiệu ứng hình ảnh công nghệ tiên tiến hơn. Nó vừa phải chống lại các chương trình khác có khả năng mô phỏng đám đông vừa phải cố gắng đáp ứng kỳ vọng ngày càng tăng đối với các hiệu ứng đặc biệt.
Nhưng mỗi khi số phận của thế giới - trong các kịch bản phim - rơi vào tình thế nguy hiểm, Massive sẽ lại hành quân vào trận chiến.
Trước khi loài Orc và tộc Elf có thể bắt đầu tấn công lẫn nhau ở Trung Địa, thì Massive thực sự chỉ là một giấc mơ.
Năm 1993, Regelous, tác giả của phần mềm Massive, cho biết ông đã mơ thấy mình bước vào văn phòng làm việc và thấy một nhóm người đang xem bản mô phỏng một khu rừng trên máy tính. Bên trong khu rừng do máy tính tạo ra này là cây cối, động vật và thời tiết. Và tất cả cùng tồn tại như ngoài đời thực, hoạt động trong thời gian thực.
Những người trong căn phòng đó, mà ông cho là người ngoài hành tinh, đã nói với Regelous cách mọi thứ hoạt động: Đó là một hệ thống các nút kết nối với nhau để tạo ra các hành vi của tất cả các sinh vật trên màn hình.
Giấc mơ này sau đó đeo bám lấy viên kỹ sư phần mềm đồ họa máy tính đến từ New Zealand. Vì vậy, khi đạo diễn Peter Jackson yêu cầu Regelous viết mã cho một phần mềm mô phỏng đám đông để dựng nên cảnh bữa tiệc kết thúc trong bộ phim hài kinh dị The Frighteners, Regelous đã rất băn khoăn về cách nó có thể hoạt động. Mặc dù ban đầu từ chối Jackson, cuối cùng ông vẫn trốn trong căn hộ của mình, thậm chí còn tự lập trình ra một chiếc đồng hồ bấm giờ để theo dõi xem bản thân có thực sự làm việc đủ 8 tiếng một ngày cho dự án hay không.
Hai năm sau, Massive chính thức được sử dụng để mô phỏng lại trận chiến đầu tiên, dù mọi thứ khi đó không chi tiết hay chân thực như trận Helm's Deep. Đó là thời điểm Regelous đến Weta Digital, một xưởng làm hiệu ứng hình ảnh khi đó vẫn nằm trong một ngôi nhà nhỏ ở Wellington, New Zealand. Tại đây, ông đã dùng phần mềm này để thể hiện cuộc đụng độ giữa 1.000 lính bạc và 1.000 lính vàng. Nói chung, mỗi nhân vật trong Massive được ông gọi là một đặc vụ.
Massive đã khiến các chuyên gia hiệu ứng hình ảnh ở đó ngỡ ngàng. Tại một thời điểm, có vẻ như một số binh sĩ đang chạy trốn khỏi trận chiến, và giả định ban đầu là có thể các đặc vụ này đủ thông minh để không muốn tham gia vào một cuộc xung đột chết người. Trong một cảnh khác, một số thành viên trong đội ngũ Weta Digital đã phải chỉ vào một vài người lính đang chiến đấu và nói rằng anh nghĩ mình vừa nhìn thấy một người lính đang cố gắng trả thù cho một người khác vừa bị giết.
"Thực ra đó không phải là những gì đã xảy ra", Regelous nói, "nhưng mọi người biến nó thành hiện thực bằng cách nhìn vào bản mô phỏng những thứ không thực sự ở đó."
Tiếng rít rất lớn bất ngờ vang lên trên đầu. Những người lính kinh hãi quay lên nhìn bầu trời để chứng kiến những con quái vật có cánh được gọi là quái thú đang sà xuống phía họ. Những con quái vật tóm được một vài người, dễ như nhặt kẹo trong một cái bát, rồi bay lên trời và sau đó thả họ rơi xuống đến chết. Các thi thể mềm nhũn khi va vào các mái nhà bên dưới của thành phố Minas Tirith.
Nếu có ai nghĩ rằng trận chiến ở Helm's Deep đã gay cấn, thì trận chiến trên cánh đồng Pelennor trong tập phim The Lord of the Rings: The Return of the King (Chúa tể của những chiếc nhẫn: Sự trở lại của nhà Vua) thậm chí còn đáng sợ và khủng khiếp hơn.
Trong hai năm tập trung lập trình cho phần mềm của mình, Regelous đã đưa ra một số quyết định quan trọng về cách mà Massive sẽ tạo ra một cảnh như thế nào và tất cả những điều có thể thực hiện được sau đó.
Và trọng tâm được sử dụng là cái mà các nhà nghiên cứu thường gọi là "logic mờ" (Fuzzy logic). Nếu logic truyền thống tuyên bố rằng một cái gì đó là đúng hoặc sai, thì logic mờ cho phép tồn tại các khả năng ở giữa. Trong trường hợp của Massive, điều này có nghĩa là nếu một con Orc bước tới trước một yêu tinh tộc Elf, sẽ có nhiều lựa chọn về cách hai đặc vụ đó chiến đấu với nhau, dựa trên các quy tắc logic khác nhau đã được viết để hướng dẫn việc tương tác của các tác nhân. Sau đó, phần mềm nhân nó lên hàng nghìn và sẽ không có hai tương tác nào được lặp lại trên chiến trường.
Martin Hill, giám sát hiệu ứng hình ảnh của Weta Digital cho biết: “Mắt người rất giỏi trong việc nhận ra các bản sao.”
Sử dụng logic mờ không chỉ cung cấp các tương tác duy nhất mà còn cung cấp sự linh hoạt hơn trong việc sử dụng, thậm chí so với cả mạng nơ-ron, theo Regelous. Thông thường, khi nghe về trí tuệ nhân tạo, bạn sẽ nghe về cái gọi là mạng thần kinh nhân tạo hay mạng nơ-ron. Chúng là một phương tiện trong lĩnh vực học sâu, lần đầu tiên được đề xuất vào năm 1944. Một ví dụ cơ bản để hiểu về nó là một hệ thống nhận dạng đối tượng, và người ta sẽ cần hiển thị hàng nghìn bức ảnh về các mục khác nhau để hệ thống có thể tìm hiểu xem đối tượng đó là gì. Ví dụ, nếu Jackson đã quyết định rằng một nhóm Orc cần phải hung hãn hơn trong một cảnh, thì mạng lưới thần kinh nhân tạo có thể mất hàng tháng để huấn luyện các nhân vật AI trở nên hung hãn hơn. Nhưng Massive thì cho phép những thay đổi đó được thực hiện một cách nhanh chóng.
Trong trường hợp này, logic mờ chỉ áp dụng cho một tác nhân còn sống. Một khi tác nhân đó chết đi, một phần quan trọng khác của Massive sẽ được kích hoạt, gọi là Rigid body dynamics hay Động lực học về cơ thể cứng chắc.
Ý tưởng về cơ bản là: Một con Orc bị trúng một mũi tên, chết và rơi xuống vách đá, hoặc một người lính của tòa thành Minas Tirith đập vào một mái nhà. Động lực học nói trên sẽ giải thích cho việc cơ thể con Orc đi khập khiễng và rơi xuống, và đó là khi tác nhân không hoạt động tuân theo các quy tắc logic mờ của nó nữa. Vì nó đã chết.
“Điều đó cho phép chúng tôi có tất cả những tương tác vật lý tuyệt đẹp này, trong khi bạn tin rằng đã có hàng nghìn người như vậy trong cảnh quay”,
Và khi xem phim, bạn có nhớ những tiếng la hét phát ra từ những con quái thú khi chúng sà xuống đám lính một cách đầy đe dọa? Các tác nhân cũng được thiết kế để phản ứng với điều đó. Chúng không chỉ phản ứng với các tình huống chiến đấu, mà còn cả những âm thanh xảy ra trong thế giới ảo. Weta Digital đã tìm ra cách để tích hợp âm thanh vào Massive. Nhóm có thể thể hiện âm thanh đó bằng một tín hiệu trong phần mềm, sau đó chỉ định bất kỳ tác nhân nào có thể nghe thấy trong trận chiến. Nói cách khác, nếu họ nghe thấy điều gì đó, họ có thể nhìn lên và có lẽ vừa đúng lúc để thấy kết cục cuối cùng của mình.
Đối với trận đại chiến Winterfell trong mùa cuối cùng của Game of Thrones, kỳ vọng của các nhà làm phim với đội ngũ làm kỹ xảo là cực kỳ cao. Người xem có thể thất vọng về cả mùa, nhưng bản thân trận chiến này là một trong những thứ biểu tượng nhất trong lịch sử văn hóa đại chúng.
Trong trường hợp này, Massive phải làm sinh động những gì người xem không thể nhìn thấy.
Khi bắt đầu trận chiến, quân đội Dothraki phóng ra khỏi tòa thành, lao tới nơi đội quân White Walker và đám xác sống đang chờ đợi. Nhưng sau đó, từng ngọn lửa biến thành bóng tối. Dothraki, từng là một nhóm chiến binh dũng cảm, bất khả xâm phạm, đã chết, khi ngọn lửa của họ bị dập tắt.
Mọi thứ trên màn hình có vẻ rất nhỏ và khó nhìn. Nhưng câu hỏi là làm thế nào để thể hiện một cách chân thực các đám cháy đang bùng phát và tắt ngấm lại là một thách thức đối với các nghệ sĩ tại Weta Digital. Việc tạo hình động bằng tay sẽ rất khó, tốn nhiều thời gian và không thuyết phục về chất lượng của các chuyển động. Thay vào đó, họ đã sử dụng Massive.
"Có cả một trận chiến đang diễn ra ở đó, bên trong Massive",
Khi các chiến binh Dothraki đụng độ với kẻ thù, họ ngã ngựa, rơi vũ khí. Và đó là tất cả những gì mà bạn có thể mong đợi ở một cuộc tàn sát. Sự khác biệt là mọi yếu tố của trận chiến, ngoại trừ những ngọn lửa, đều có màu đen. Khán giả không thể nhìn thấy điều gì đang diễn ra trong cảnh này. Tất cả những gì có thể nhìn thấy là những thanh kiếm rực lửa, sau đó ánh sáng của chúng nhanh chóng bị dập tắt khi người cầm nó chết dưới tay của đội quân White Walker trong bóng tối.
Yếu tố động lực học cũng phát huy tác dụng trong tập này, trong một khoảnh khắc mang tính biểu tượng khác của trận chiến. Sau khi Arya Stark giết Night King, quân đội của hắn tan rã thành từng mảnh. Các nghệ sĩ của Weta Digital đã sử dụng một tín hiệu kỹ thuật số trong phần mềm để giải phóng đội quân xác sống khỏi các quy tắc của logic mờ và để chúng tan rã theo đúng nghĩa đen.
Khi lên kế hoạch cho trận chiến Winterfell, đạo diễn Miguel Sapochnik muốn lấy cảm hứng từ trận chiến Helm's Deep. May mắn cho ông là những nghệ sĩ đã làm việc trong trận chiến hồi đó vẫn còn ở Weta Digital.
“DNA của Helm's Deep đã được truyền qua trận Winterfell”,
Nếu trận Winterfell đại diện cho số phận của lục địa Westeros, thì trong văn hóa đại chúng còn có một trận chiến khác thậm chí còn hoành tráng và quan trọng hơn. Đó là trận chiến cuối cùng trong Avengers: Endgame. Bởi thứ đặt cược ở đây là một nửa dân số của toàn vũ trụ.
Tại thời điểm mà hy vọng dường như đã mất và “Đội trưởng Mỹ” trông như có vẻ sắp “xong đời”, những cánh cổng bất ngờ mở ra và quân tiếp viện tràn tới. Đó là đội ngũ của người Wakanda, người Asgardia, Ravager… xuất hiện để đối đầu lần cuối cùng với Thanos và bè lũ tay sai. Tất cả các nhân vật sau đó lao vào nhau. Trong phần hậu cảnh của các cảnh quay khác nhau, người xem có thể thấy họ đang chạy trên những đống mảnh vỡ, hay những cơ thể đau đớn bay lên trong không khí.
Mặc dù khán giả có thể không nhận ra, nhưng họ đang xem các đặc vụ được tạo bởi AI, với các phong cách chiến đấu và vũ khí khác nhau. Một số cầm kiếm, một số mang khiên và giáo, một số thì bay trên không với tia lửa phát ra từ tay của mình.
Để tạo ra các mô hình chiến đấu đặc biệt cho các nhóm khác nhau, đội ngũ của Weta đã dựa vào khả năng chụp chuyển động, cho phép Massive cung cấp cho mỗi đặc vụ một kho vũ khí để lựa chọn.
Giám sát hiệu ứng hình ảnh Weta Digital, Matt Aitken, cho biết Endgame là một trong những dự án lớn nhất mà công ty đã thực hiện. Việc ghi lại các phong cách chiến đấu cụ thể là một quá trình kéo dài ba ngày, trước đó là quãng thời gian nghiên cứu từ các bộ phim khác để xem các bước di chuyển đã được thiết lập. Các nghệ sĩ chụp chuyển động đã tạo ra nhiều loại họa tiết chiến đấu mà các đặc vụ có thể học từ đó.
Không chỉ tất cả các phong cách chiến đấu đều khác nhau, mà bản thân các đặc vụ cũng khác nhau. Trở lại thời Chúa tể của những chiếc nhẫn, Jon Allitt, trưởng bộ phận đám đông tại Weta Digital, đã tạo ra một công cụ trong Massive có tên là Orc Builder. Nó có thể tạo ngẫu nhiên các biến thể khác nhau của Orc dựa trên các đặc điểm như chiều cao và chiều dài chi. Orc Builder hiện được gọi là Body Page và nó cũng hoạt động theo cách tương tự trong Endgame.
“Chúng tôi không muốn hai người trông giống nhau”, Allitt chia sẻ trong một buổi giới thiệu DVD về hiệu ứng hình ảnh đằng sau phim Chúa tể của những chiếc nhẫn: Hai tòa tháp.
Massive không phải là phần mềm duy nhất để tạo ra một đám đông. Kể từ khi Regelous, người giữ quyền sáng tạo của phần mềm, biến Massive thành công ty riêng vào năm 2003, đã có nhiều chương trình khác xuất hiện với khả năng mô phỏng đám đông. Và các nhà làm phim cũng có một số chiến thuật riêng để lấp đầy các đấu trường, sân vận động hay những thứ tương tự.
Gray Marshall, một người kỳ cựu trong ngành và là chủ nhiệm khoa hiệu ứng hình ảnh tại Đại học Nghệ thuật và Thiết kế Savannah cho biết: "Hiệu ứng hình ảnh, cốt lõi của nó, không phải là một mô phỏng hoàn hảo của thực tế. Đó là việc khiến người xem tin vào điều đó".
Các nghệ sĩ tạo hiệu ứng hình ảnh trên phim có thể giải quyết bài toán bằng cách tạo ra một bản tổng hợp. Họ có thể ghi hình một nhóm từ 20 đến 30 người, rồi yêu cầu thay trang phục, di chuyển họ đến một điểm khác, ghi hình lại, rồi lặp lại quá trình đó để cuối cùng tập hợp tất cả lại để lấp đầy một sân vận động, các bậc thang của một tòa nhà hoặc bất cứ điều gì tương tự.
Một phương pháp khác liên quan đến việc các nhà làm phim về cơ bản sẽ đặt các phông xanh kỹ thuật số vào ghế của một sân vận động, và chiếu hình ảnh mọi người lên đó.
Có lần, Marshall phải lấp đầy 90.000 chỗ ngồi trong sân vận động Wembley. Và ông làm điều đó với một đám cỏ kỹ thuật số bay phất phơ trong gió được phủ màu da thịt, vì yêu cầu về các chi tiết sắc nét là quá ít.
Tại sao mọi người sẽ quyết định chọn kỹ thuật này thay vì kỹ thuật khác? Điều đó phụ thuộc vào nhu cầu của bộ phim, mức độ phức tạp của đám đông, ngân sách và sở thích của chính các nghệ sĩ làm hiệu ứng hình ảnh.
Jon Allitt nói rằng Weta Digital không phải lúc nào cũng sử dụng Massive để mô phỏng đám đông. Ngoài nó, họ còn có các chương trình hiệu ứng đặc biệt khác như phần mềm hoạt hình 3D Houdini, thứ có thể làm được nhiều hơn là mô phỏng đám đông như tổng hợp, mô hình hóa và ánh sáng. Hoặc các lựa chọn khác là Miarmy và Golaem Crowd, cả hai đều là plug-in cho Maya, một chương trình đồ họa máy tính 3D của Autodesk.
Theo quan điểm của Marshall, mặc dù rõ ràng có sự trùng lặp, nhưng tất cả chúng đều có phần khác nhau, với các mục đích sử dụng khác nhau trong các tình huống khác nhau. "Giống như việc so sánh Ferrari với Toyota vậy", ông nói.
So với tất cả những gì Massive tạo ra cho các bộ phim và truyền hình, câu chuyện của riêng bản thân nó tương đối ít các yếu tố kịch tính. Đối với Regelous và những người từ Weta Digital, những gì họ nhớ về nó đôi khi chỉ là những khoảnh khắc như khi họ chỉ có máy trạm 64GB để sử dụng, hoặc khi họ thiết kế ra một định dạng tệp mới giúp hệ thống hoạt động mượt mà hơn.
Regelous nhớ rằng ông từng xây dựng một bản mô phỏng vào đúng lễ Phục sinh và đã hoàn thành nó ngay trước bữa ăn tối. Aitken thì nhớ tới lần phải chạy mô phỏng xuyên đêm để không bị sập mạng.
Ngày nay tại Weta Digital, đội ngũ phụ trách tạo ra các đám đông chỉ bao gồm năm người.
“Tôi không biết liệu họ có nhận ra sức mạnh thị giác mà họ đang sử dụng hay không”
Regelous, vẫn điều hành công ty, cho biết ông luôn cố gắng tìm ra cách để tiếp tục tiến về phía trước. Điều đó có nghĩa là cung cấp cho các nhà làm phim khả năng xem các hiệu ứng đặc biệt gần như ngay lập tức trong quá trình sản xuất. Ví dụ, loạt phim truyền hình Mandalorian năm 2019 đã gây chú ý khi công chiếu bằng cách sử dụng kết xuất thời gian thực của Unreal Engine để tạo ra các cảnh nhập vai do máy tính tạo ra. Tức là thay vì chèn môi trường giả lập vào cảnh quay trên phông xanh, mọi thứ sẽ xảy ra ngay trong quá trình quay phim.
Phiên bản mới của Massive - Massive 9.0 - dự kiến sẽ được phát hành, sở hữu các khả năng mới như làm cho nó tương thích hơn với các chương trình phần mềm khác, chẳng hạn như Maya của Autodesk.
Hill thì cho rằng đó là một điều bất thường khi một phần mềm đã trải qua thời gian sử dụng quá lâu. “Nó đã phát triển và trở nên tốt hơn, nhưng các yếu tố cốt lõi vẫn là những gì chúng có từ 20 năm trước”, ông nói.
Nhưng sau hàng trăm bộ phim và chương trình truyền hình, cùng một vài giải Emmy và giải Oscar, Regelous vẫn đang tập trung vào việc thúc đẩy Massive tiến về phía trước. Bởi rõ ràng nó đang có một khởi đầu khá thuận lợi.
"Nó vẫn tốt ở hiện tại," Allitt nói. "Massive đã đi trước thời đại 20 năm."
Tham khảo Cnet
Tổ Quốc