17/02/2025 11:13 GMT+7

Vbee và nỗ lực chắp cánh cho tiếng Việt

Bước vào sảnh chờ sân bay, giữa dòng người tất bật sau chuyến công tác trở về, Hồ Minh Đức sững lại vài giây khi nghe thấy một giọng nữ dịu dàng thân thuộc đang đọc thông báo trên hệ thống.

Vbee và nỗ lực chắp cánh cho tiếng Việt - Ảnh 1.

Đội ngũ nhân viên của Vbee đang làm việc tại trụ sở công ty ở Hà Nội - Ảnh: NVCC

Anh mỉm cười, cảm giác nhẹ nhõm và vui vui như gặp lại người thân. "Người thân" ấy chính là một trong 20 giọng đọc AI mà Đức cùng đội ngũ Vbee đã "cùng ăn ngủ" trong bao ngày tháng, dồn hết tâm huyết vào từng đường nét âm thanh, chăm chút từng sắc thái giọng đọc để chúng ngày càng tự nhiên và giống người hơn.

Gập ghềnh start-up

Không biết đã bao lần giám đốc điều hành (CEO) Hồ Minh Đức và giám đốc công nghệ (CTO) Nguyễn Thị Thu Trang - hai sáng lập viên của Công ty cổ phần dịch vụ và giải pháp dữ liệu Vbee - được trải nghiệm cảm giác vui sướng và tự hào như vậy.

Họ đã gặp lại những "người quen đặc biệt" trong nhiều hoàn cảnh khác nhau: tiếng nói trong trẻo trên hệ thống loa phát thanh trường học, âm giọng ấm áp trong các tòa nhà, hay giọng đọc chuyên nghiệp từ tổng đài tự động của nhiều doanh nghiệp.

Những đứa con tinh thần của Vbee đã không còn chỉ là kết quả của thuật toán và mã lệnh mà đang thực sự bước vào đời sống, đóng góp âm thầm nhưng mạnh mẽ vào nhiều lĩnh vực.

Từ những nội dung giới thiệu sách, lồng tiếng phim cho đến các thông báo trong tổng đài giải đáp tự động, Vbee đã thổi vào công nghệ giọng nói một sức sống mới.

Là "mẹ đẻ" của công nghệ lõi TTS đó, TS Nguyễn Thị Thu Trang luôn khao khát đưa những sản phẩm từ công nghệ tổng hợp giọng nói tiếng Việt - công nghệ mà chị đã dồn rất nhiều tâm huyết từ luận án tiến sĩ tại Đại học Paris 11 - đến với người dùng thực tế.

Những ngày đầu của Vbee đầy chông gai. Dù miễn phí trong khoảng 2 năm đầu tiên, công cụ text-to-speech (TTS) của họ chỉ thu hút được một nhóm nhỏ người dùng. Nhưng rồi COVID-19 bỗng trở thành một bước ngoặt không ngờ.

Đối mặt với các quy định nghiêm ngặt về giãn cách xã hội, những doanh nghiệp như FE Credit, Momo, Viet Credit, Sacombank... phải tìm cách tiếp cận hàng ngàn khách hàng. Đó là lúc Vbee được trao cơ hội: từ việc nhắc nợ đến trả lời tự động, sản phẩm của họ đã kịp thời trở thành giải pháp tối ưu. Khi ấy, trợ lý ảo và tổng đài viên ảo đã mang lại tới 80% doanh thu cho Vbee.

Khi đại dịch qua đi, nền kinh tế thế giới đi xuống, Vbee lại đứng trước thách thức mới. Làn sóng AI tạo sinh (GenAI) và xu hướng nội dung số đã làm hồi sinh công cụ TTS. Ngày nay, từ TikTok đến YouTube, Facebook, đâu đâu cũng xuất hiện những giọng nói AI của Vbee.

"Rất nhiều nội dung TTS hiện nay là do chúng tôi cung cấp", anh Hồ Minh Đức tự hào chia sẻ. Hiện tại, lượng người dùng thực tế của Vbee đã vượt mốc 2 triệu, và con số này vẫn đều đặn tăng 20% mỗi tháng.

Vbee đã đào tạo được hơn 20 giọng nói chất lượng cao của công ty, và nếu tính cả những giọng riêng được đặt hàng theo yêu cầu, họ đã tạo ra hơn 200 giọng AI khác nhau.

Với công nghệ sao chép giọng nói mới được nghiên cứu và ra mắt thử nghiệm gần đây, một giọng đọc mới giờ chỉ cần 3 phút thu âm dữ liệu để đào tạo thay vì từ 4 đến cả chục giờ thu âm như hai năm trước.

Vbee và nỗ lực chắp cánh cho tiếng Việt - Ảnh 2.

Giám đốc điều hành (CEO) Hồ Minh Đức và giám đốc công nghệ (CTO) Nguyễn Thị Thu Trang - hai sáng lập viên của Công ty cổ phần dịch vụ và giải pháp dữ liệu Vbee - Ảnh: NVCC

"Chúng tôi hơn ở sự am hiểu tiếng Việt"

Trong cuộc đua công nghệ tổng hợp giọng nói, CEO Hồ Minh Đức nhìn thấy một thời điểm mà các nỗ lực đổi mới công nghệ sẽ đi dần đến giới hạn của nó.

Theo anh, Vbee không chỉ đang phát triển công nghệ lõi xử lý tiếng nói tiếng Việt, mà còn đã và đang xây dựng một hệ thống công nghệ có khả năng hiểu sâu sắc ngôn ngữ tiếng Việt - với tất cả sự tinh tế, âm sắc và văn hóa đặc thù mà chỉ những người Việt thực sự mới có thể thấu hiểu trọn vẹn.

Là công ty dẫn đầu trong thị trường TTS ở Việt Nam, hai lãnh đạo của Vbee tin tưởng rằng công cụ của họ đã trở thành chuẩn mực về giọng đọc AI cho tiếng Việt. Người dùng không chỉ đánh giá cao độ chính xác mà còn cảm nhận được "cảm xúc" trong từng giọng nói do Vbee phát triển.

Với tiếng Việt, đơn cử như chỉ một từ "ngõ" thôi cũng có nhiều cách gọi khác nhau tùy theo vùng miền như "hẻm", "kiệt", "xẹc" - mỗi từ mang một sắc thái khác biệt mà AI cần phải hiểu.

Để đạt được điều đó, Vbee đã đầu tư rất lớn vào việc thu thập các tập dữ liệu mẫu cũng như đầu tư vào hệ thống máy chủ mạnh mẽ để đào tạo AI.

"Muốn AI hiểu và xử lý đúng với từng sắc thái vùng miền như vậy, chúng tôi đã phải xây dựng vô số tập mẫu, và chi phí cho máy chủ xử lý cũng rất lớn", CEO Hồ Minh Đức chia sẻ.

TS Nguyễn Thị Thu Trang đã dành hơn 15 năm cho quá trình nghiên cứu công nghệ lõi TTS của Vbee để giải mã những thanh điệu và ngữ pháp đặc trưng của tiếng Việt. Đối với chị, ngôn ngữ mẹ đẻ là một thế giới tinh tế đầy sắc thái biểu cảm.

"Tiếng Việt của mình rất phức tạp và thú vị, thanh điệu là điểm khó nhất và khác biệt với nhiều ngôn ngữ phổ biến khác trên thế giới. Càng hiểu về ngôn ngữ, mô hình của mình sẽ càng chính xác hơn", chị giải thích.

Vbee đang dần khẳng định họ sẽ là một phần không thể thiếu của các công cụ, thiết bị có tích hợp phần mềm xử lý tiếng Việt trong kỷ nguyên công nghệ.

Trong từng câu chữ, từng giọng nói, đội ngũ Vbee không chỉ tìm tòi phát triển công nghệ mà còn nỗ lực tạo nên một "cảm xúc Việt" thực sự trong những giọng nói AI của họ.

Cái tên Vbee là viết tắt của cụm từ "Vietnamese BE your Eyes", xuất phát từ mong muốn ban đầu của tôi là xây dựng một công cụ trở thành "đôi mắt" cho những người khiếm thị. Nhưng trong xu thế phát triển hiện nay, khi nhiều người muốn chuyển sang nghe nhiều hơn là nhìn, chúng tôi tin rằng Vbee cũng sẽ trở thành "đôi mắt" của mọi người.
TS Nguyễn Thị Thu Trang (giảng viên chính Trường CNTT&TT Đại học Bách khoa Hà Nội, sáng lập viên kiêm giám đốc công nghệ Công ty Vbee)

Sự gặp gỡ của những người mê sách nói

Vbee ra đời từ duyên nợ của TS Nguyễn Thị Thu Trang với cộng đồng người khiếm thị. Từ thời sinh viên, chị đã tham gia thu âm sách nói và phát triển bộ đọc tiếng Việt hỗ trợ người khiếm thị.

Những trải nghiệm này đã thôi thúc chị phát triển phần mềm đọc tiếng Việt - tiền thân của Vbee. Năm 2018, chị cùng anh Hồ Minh Đức - người bạn đồng môn tại Đại học Bách khoa Hà Nội với kinh nghiệm từ dự án Socbay.com và số hóa sách nói - thành lập Vbee, tiên phong trong lĩnh vực chuyển văn bản thành giọng nói tại Việt Nam.

Thành tựu nổi bật của Vbee

- Giải nhất cuộc thi Thử thách đổi mới sáng tạo Qualcomm Việt Nam 2024

- Giải đặc biệt Tuổi Trẻ Start-up Award 2023

- Start-up thắng cuộc trong chương trình Tăng tốc khởi nghiệp Grab Venture Ignite 2020

- Giải cao nhất Nhân tài đất Việt 2018, giải nhì Nhân tài đất Việt 2020

- Chứng nhận Công nghệ lõi Việt trong Chương trình chuyển đổi số quốc gia 2025 - 2030 của Bộ TT&TT

- Dự án thắng cuộc trong giải thưởng Truyền thông số Việt Nam 2018 và Quỹ tài trợ Vingroup 2019.

Tầm nhìn khu vực

Sau khi đã khẳng định vị trí tại thị trường Việt Nam, Vbee đang hướng đến mục tiêu mở rộng ra khu vực Đông Nam Á với kế hoạch đến năm 2026 sẽ đưa công nghệ TTS của mình đến các quốc gia như Lào, Thái Lan, Campuchia và Philippines.

Theo TS Nguyễn Thị Thu Trang, sự tiến bộ nhanh chóng của công nghệ ngày nay với việc xuất hiện của các mô hình đa ngôn ngữ sẽ giúp việc phát triển các công cụ TTS cho những ngôn ngữ khác trở nên dễ dàng hơn.

Hiện tại, chị đang nghiên cứu các công nghệ tiếng nói cho tiếng Thái, tiếng Trung và tiếng Anh, mở ra những bước đi mới cho Vbee trên thị trường quốc tế.

Vbee và nỗ lực chắp cánh cho tiếng Việt - Ảnh 3.Start-up Việt được vinh danh tại thượng đỉnh AI Paris

Enfarm, start-up công nghệ trí tuệ nhân tạo (AI) cho nông nghiệp Việt Nam, là một trong 4 đại diện của châu Á nằm trong 50 dự án được giới thiệu tại Hội nghị thượng đỉnh hành động AI tại Paris (Pháp) trong hai ngày 10 và 11-2.

Trở thành người đầu tiên tặng sao cho bài viết 0 0 0
Bình luận (0)
thông tin tài khoản
Được quan tâm nhất Mới nhất Tặng sao cho thành viên