Từ ảnh giả, video giả đến giọng nói giả

TTCT - Hẳn bạn từng xem qua một video giả cựu tổng thống Mỹ Obama nói chuyện “tầm phào” y như thật và đã biết chuyện phần mềm thông minh có thể tạo ra video giả, được mệnh danh là “deepfakes”. Nay, nhiều người đang bắt đầu “khởi nghiệp” thương mại hóa các công cụ làm video giả, hình ảnh giả.

Giả chi tiết ảnh

Hai cha con Eric và Albert Yang có một công ty phần mềm Topaz Labs chuyên xây dựng các công cụ biên tập ảnh, chẳng hạn phần mềm giả lập các chi tiết để nâng chất lượng ảnh. Nay, dựa vào công nghệ học máy, họ có thể dùng thuật toán để tự động hóa quy trình từng đòi hỏi phải rất tỉ mỉ, thủ công này.

Bộ phần mềm mới hoạt động dựa vào trí tuệ nhân tạo của họ có thể làm đủ thứ: từ giảm các chi tiết thừa trong ảnh đến chuyển một tấm ảnh JPEG đơn giản thành một ảnh RAW dung lượng lớn. Nói cách khác, họ có thể lấy một tấm ảnh độ phân giải thấp rồi tăng độ phân giải lên, tăng kích cỡ tấm ảnh lên 600% mà vẫn không làm thay đổi chất lượng ảnh.

Nếu chỉ áp dụng vào ảnh phong cảnh, chẳng có gì đáng nói. Cảnh sát từng phải dùng phần mềm nâng độ phân giải của ảnh, ví dụ, để đọc cho được một biển số xe do camera giao thông chụp rất mờ. Dùng trí tuệ nhân tạo, thuật toán sẽ phân tích hàng ngàn hàng chục ngàn hình ảnh để học cách bổ sung chi tiết, tự động cung cấp các dữ liệu còn thiếu.

Nhưng rất có khả năng, phần mềm giả lập độ phân giải dù chính xác đến 90% vẫn có 10% sai sót, dẫn đến hậu quả tai hại như đọc biển số sai hay tăng độ phân giải một chân dung sai, từ người này thành người khác.

Ý thức được chuyện đó, Eric và Albert Yang chỉ nhắm bán phần mềm cho các nhiếp ảnh gia chứ không bán để sử dụng trong các lĩnh vực như an ninh, trật tự... Nhưng không có gì ngăn cản một doanh nghiệp khác khởi nghiệp trong lĩnh vực này và không cần quan tâm công nghệ của họ có thể bị lạm dụng hay không.

Giả giọng nói

Modulate vừa được thành lập vào năm ngoái, có khả năng giả giọng bạn thành bất kỳ giọng nói của một ai khác. Ý tưởng đằng sau Modulate được Carter Huffman, một sinh viên vật lý Trường MIT, nghĩ ra năm 2015. Lúc đó người ta đã biết cách tạo ra phần mềm có thể chuyển phong cách một họa sĩ từ các bức vẽ của ông sang một bức vẽ bất kỳ, hay nói cách khác, có thể biến một tấm ảnh chụp thành một bức tranh y như do Van Goh vẽ. Huffman nghĩ nếu lưu tiếng nói thành một file hình, rồi chuyển phong cách nó vào file hình khác, lúc đó giọng nói của một người có thể chuyển sang bất kỳ giọng của ai khác.

Suốt ba năm, Huffman luyện cho máy, bắt nó phân tích hàng trăm ngàn file âm thanh lưu thành file ảnh, kể cả giọng nói của những nhân vật nổi tiếng, có sẵn hàng chục giờ ghi âm. Cuối cùng Huffman cũng xây dựng được một thuật toán trích xuất phong cách giọng nói của bất kỳ nhân vật nào rồi cho máy tính nói theo giọng đó trong những nội dung hoàn toàn mới, nội dung do Huffman viết ra. Cũng như “deepfakes”, Modulate có thể giả giọng Obama đang kể chuyện tiếu lâm, chẳng hạn.

Nay Modulate muốn bán công nghệ giả giọng này cho các mạng xã hội, các nơi cung cấp game online để chẳng hạn cho phép người dùng treo avatar có âm thanh, bấm vào nghe như Brad Pitt đang giới thiệu về chính người dùng đó.

Doanh nghiệp này nói người dùng không tiếp cận được công nghệ nên không sợ nó bị lạm dụng tạo ra các file âm thanh giả, nghe như thật. Chỉ có mạng xã hội mới tạo ra khung người dùng gõ nội dung vào và chọn người đọc nội dung đó. Modulate cũng tính chèn một dạng vân tay vào các file âm thanh để sau này có thể minh định đó là âm thanh giả.

Nói vậy thôi chứ từ đó đến chỗ người dùng lạm dụng nó cho ý đồ xấu là một bước không xa.

Thân hình giả

Misha Leybovich khởi nghiệp với ý tưởng biến hình ảnh hai chiều của bất kỳ ai thành hình avatar 3 chiều mang dáng dấp của người đó. Tức phần mềm có thể lấy hàng ngàn tấm ảnh của bạn, sau đó biến bạn thành một nhân vật trong các trò chơi điện tử trực tuyến. Anh đã chào thành công ý tưởng này cho các hãng làm game điện tử vì ai nấy đều hào hứng trước viễn cảnh người chơi hóa thân đúng nghĩa từ này, biến thành nhân vật trong game, bắn nhau, đua xe, đua thuyền như phim thật.

Hiện nay hình ảnh 3 chiều này còn chưa thật 100%, nhưng chẳng bao lâu nữa, từ công nghệ của Leybovich, người ta có thể giả bất kỳ ai (miễn là thu gom được đủ nhiều hình ảnh của người đó) để điều khiển người này làm bất cứ điều gì họ muốn, như một đạo diễn cuộc đời.

Cũng như hai nhân vật trước, Leybovich nói sẽ xây dựng các ổ khóa cho phần mềm để công nghệ của anh không bị dùng vào chuyện xấu. Nhưng bất luận thế nào, từ “deepfakes” đến hàng loạt doanh nghiệp khởi nghiệp tận dụng nó chỉ cần một thời gian rất ngắn. Sự hỗn loạn của hình ảnh, video, giọng nói giả xuất hiện ngoài đời e là đã rất gần.■