Phát hiện bất ngờ: Giọng nói của AI khiến ai cũng trầm trồ kinh ngạc!

AI có khả năng tái tạo giọng nói một cách chân thực và tự nhiên đến mức khiến cho người nghe hầu như không thể phân biệt được đó là giọng nói của máy hay của con người.


Giọng nói kỹ thuật số ngày nay đã đạt đến mức đáng sợ chưa? Dường như, từ những giọng nói kỹ thuật số đầu tiên trong những năm 2000 và 2010, đến sự xuất hiện của Google Assistant và Alexa, chúng ta đã trải qua một quá trình dài. Tuy nhiên, với sự phát triển của AI, các giọng nói kỹ thuật số ngày nay đã trở nên rất thực tế và gần gũi.

Ví dụ như công cụ mới của Google – Sổ tayLM, cho phép bạn tải lên tài liệu và đặt câu hỏi với giọng nói do AI tạo ra. Một ứng dụng mới của Google cũng cho thấy khả năng tạo ra podcast tương tự như cuộc thảo luận thực sự. NotebookLM của Google đã thể hiện khả năng làm cho giọng nói trở nên chân thực và gần gũi đến mức khiến người nghe có thể quên mình đang giao tiếp với một máy móc.

Các công ty đang đẩy mạnh sử dụng sản phẩm AI của mình, từ video đến trang web, kể cả trong việc tạo ra nội dung trên truyền thông xã hội. Tuy nhiên, liệu việc quên đi vẻ đẹp của sự sáng tạo con người có đem lại lợi ích dài hạn hay không, là một vấn đề đáng lo ngại.

Với việc giọng nói AI trở nên ngày càng thực tế, có khả năng chúng ta sẽ mất khả năng phân biệt giữa giọng nói của con người và giọng nói của máy móc. Điều này tạo ra một tương lai không rõ ràng về mức độ tương tác giữa con người và AI. Bởi vậy, quá trình phát triển của giọng nói kỹ thuật số, dường như tiến gần đến một điểm mà nó sẽ có ảnh hưởng sâu sắc đến cuộc sống hàng ngày của chúng ta.

do AI tạo ra giọng nói không phải là điều gì mới mẻ, vì chúng đã tồn tại trong nhiều thập kỷ. Dù vậy, những giọng nói kỹ thuật số mà chúng ta đã trải nghiệm trong nhiều năm qua sẽ không thực sự đánh lừa được bất kỳ ai. Tuy nhiên, ngày nay, tôi nghĩ rằng giọng nói kỹ thuật số đã đạt đến mức có thể đáng sợ. Điều này là do một số lý do. Liệu giọng nói do AI tạo ra có quá thực tế ngày nay không?

Chúng ta đã đi một chặng đường dài từ những giọng nói lâm sàng và rời rạc mà chúng ta đã nghe trong nhiều năm qua. Hãy nghĩ về những giọng nói kỹ thuật số cũ từ những năm 2000 và 2010. Google Assistant và Alexa gần như tốt nhất có thể. Tuy nhiên, với sự bùng nổ của AI tạo sinh, đã có một động lực lớn để làm cho AI trở nên thực tế hơn và bạn có thể cá rằng điều này đã có tác động sâu sắc đến lượng công sức mà mọi người bỏ ra cho giọng nói kỹ thuật số của họ.

Bây giờ, hãy nghĩ về giọng nói mà OpenAI đã thể hiện tắt khi nó ra mắt GPT-4o. Hiện tại, có bốn giọng nói trên nền tảng. Chúng ta cũng không thể quên Gemini của Google giọng nói. Mặc dù tất cả đều có vẻ thực tế, tôi không nghĩ rằng chúng ta đã thấy được những giọng nói này có thể điên rồ đến mức nào. Phải đến khi tôi thử công cụ mới của Google, tôi mới nhận ra rằng giọng nói kỹ thuật số có thể đã vượt qua ngưỡng thực tế.

NotebookLM cho tôi thấy giọng nói kỹ thuật số quá thực tế

Trong trường hợp bạn chưa nghe nói đến, Google đã phát hành một sản phẩm vào năm ngoái có tên là Sổ tayLM. Hãy coi nó như một cuốn sổ tay hỗ trợ AI. Bạn có thể tải lên thông tin như nguồn và tài liệu về một chủ đề nhất định và theo dõi tài liệu. Google sẽ sử dụng AI của mình để đọc và trích xuất thông tin từ tài liệu bạn đã tải lên.

Sử dụng công cụ này, bạn có thể đặt câu hỏi về tài liệu bạn đã tải lên. Hãy nghĩ về nó giống như sử dụng một chatbot được đào tạo chỉ về tài liệu bạn đã tải lên. Hãy tưởng tượng tải lên toàn bộ một cuốn sách giáo khoa về vật lý và có thể đặt câu hỏi về tài liệu trong đó.

Mặc dù nền tảng này không có gì mới, nhưng có một chức năng mới mà Google đã nghĩ ra và hiện đang thử nghiệm. Bạn có thể có Google tạo ra một cuộc thảo luận theo phong cách podcast dựa trên thông tin bạn đã tải lên. Khi tôi nói theo phong cách podcast, ý tôi là nó có nghĩa là tạo cảm giác như có hai người thực sự thiết lập micrô và ghi lại một podcast thực sự.

Giọng nói nghe có vẻ thực tế một cách đáng lo ngại vì một số lý do. Các câu nói trôi chảy tự nhiên và nhịp điệu cũng như ngữ điệu của người nói cực kỳ tự nhiên. Không chỉ vậy, Google thậm chí còn nắm bắt được một số chi tiết nhỏ phân biệt con người với máy móc. Tôi có thể nghe thấy tiếng thở, nó thêm vào các âm “ums” và “likes” mà bạn nghe thấy khi mọi người nói chuyện ngoài đời thực, và thậm chí có một trường hợp một trong những người nói đã bắt đầu sai một từ và tự sửa. Google thậm chí còn đi xa hơn khi để một trong những người nói cười.

Tạo ra giọng nói nghe hay khi đưa ra phản hồi trực tiếp hoặc đọc từ một kịch bản là một chuyện. Tuy nhiên, thiết kế giọng nói nghe như đang thảo luận với con người lại là một chuyện khác. Và Google đã làm được điều đó.

Trong tập podcast, có một điều khiến tôi chú ý là:

Người nói số 1: “Vậy, bài viết nêu cụ thể hai ứng dụng. USB Audio Pro và Musicalot. Bạn đã nghe nói đến ứng dụng nào trong số đó chưa?”

Người nói số 2: “USB Audio Pro. Nghe quen quen. Tôi nghĩ một người bạn của tôi dùng nó.”

Nó thực sự chỉ ra mối quan hệ thân thiện giữa một trong những người nói và một người. Những ví dụ này nằm trong số nhiều ví dụ khác.

Giọng nói của Google đã làm điều đáng sợ nhất…

Được rồi, vậy thì tốt, nhưng vẫn còn những giọng nói kỹ thuật số tốt khác. Điều gì làm cho nó khác biệt? Vâng, vấn đề là nó có lẽ đã làm điều đáng sợ nhất mà một giọng nói AI có thể làm… nó khiến tôi quên mất.

Tôi đã tải lên một trong những bài viết của mình và để nó tạo ra một cuộc thảo luận. NotebookLM đã đưa ra một tập podcast nhỏ dài 12 phút rưỡi. Tôi bắt đầu nghe nó, và sự sốc khi nó là một cuộc thảo luận do AI tạo ra đã biến mất. Sau một vài phút, tôi thực sự quên mất rằng mình đang nghe giọng nói do AI tạo ra trong một thời gian ngắn. Có thể là trong một phút, có thể là trong 15 giây. Nhưng, Google đã thành thạo nghệ thuật làm cho giọng nói trở nên chân thực và gần gũi.

Như bạn có thể đoán, điều đó làm tôi sợ phát khiếp. Tôi biết rằng nó được tạo ra bởi AI, nhưng nó thực tế đến nỗi tôi thực sự quên mất.

Mảnh ghép cuối cùng

Các công ty đang cố gắng hết sức để nhồi nhét các sản phẩm AI của họ vào cổ họng chúng ta, và điều này có nhiều lý do. Chắc chắn, có những công ty chỉ cố gắng làm hài lòng các nhà đầu tư, nhưng cũng có những công ty sai lầm muốn bạn quên đi tiện ích của nội dung do con người tạo ra. Chúng ta đang thấy các nền tảng thực sự tạo ra toàn bộ video cho bạn với hình đại diện do AI tạo ra, kịch bản do AI tạo ra và giọng nói do AI tạo ra.

Không chỉ vậy, chúng ta còn thấy các công ty như Wix quảng cáo rằng người dùng có thể tạo toàn bộ trang web trong vài phút với AI. Ngoài ra, chúng ta không thể quên các ứng dụng hẹn hò AI. Chết tiệt, thậm chí còn có một ứng dụng truyền thông xã hội nơi AI tạo ra nội dung của riêng mình và các bài đăng riêng lẻ. Chúng ta đang sống trong một thế giới mà chúng ta bắt đầu quên đi vẻ đẹp của sự sáng tạo của con người, và điều khiến điều này trở nên tồi tệ hơn là có những người đang ủng hộ hành vi này.

Bây giờ, với giọng nói AI đang trở nên tốt hơn, xu hướng này sẽ trở nên tệ hơn. Vấn đề là mọi người liên tưởng đến lời nói; giọng nói ấm áp và giống con người có thể khiến một người kết nối với điều gì đó. Nó chỉ trở nên tệ hơn khi các công ty làm cho giọng nói nghe có vẻ cá nhân hơn và phù hợp với từng cá nhân.

Giọng nói chân thực là một trong những mảnh ghép cuối cùng của câu đố khiến một người hoàn toàn gắn kết với AI. Nếu bạn nghe một AI có giọng nói lạnh lùng và khàn khàn, đó là lời nhắc nhở liên tục rằng đó là một con robot. Khi giọng nói trở nên chân thực, khả năng bạn coi đó là giọng người sẽ cao hơn.

Vậy, điều gì có thể xảy ra trong tương lai?

Chúng ta đang ở thời điểm mà chúng ta cảm thấy như là một bước ngoặt khi nói đến mối quan hệ giữa con người và AI. Có những người đã liên kết với AI. OpenAI thậm chí còn đưa ra một tuyên bố kêu gọi mọi người không nên yêu ChatGPT. Bạn có biết điều gì sai trái về điều đó không? Mọi người đủ tuổi để liên kết với AI đều lớn lên trong một thế giới truyền thống hơn, nơi mà các tương tác duy nhất là con người.

Nhưng, với các công ty đang mở rộng ranh giới về cách AI của con người có thể trở thành và đưa AI của họ vào cổ họng chúng ta, thì thế hệ tiếp theo hoặc thế hệ sau đó thì sao? Hãy tưởng tượng một đứa trẻ sinh ra vào ngày mai lớn lên trong một thế giới ngày càng bị AI điều khiển. Đứa trẻ đó sẽ như thế nào vào năm 2040 khi chúng là một thiếu niên? Bao nhiêu LLM sẽ có tác động đến cuộc sống của đứa trẻ đó? Liệu đứa trẻ này có biết các mối quan hệ do AI tạo ra sai lầm như thế nào nếu chúng được dạy bởi một chatbot thay vì một giáo viên không?

Bây giờ giọng nói đã trở nên rất thực, vậy thì ghi âm podcast có ích gì khi bạn có thể tự tạo ra một podcast? Chắc chắn, ngày nay mọi người sẽ giẫm đạp lên podcast do AI tạo ra, nhưng hãy nghĩ xem mọi thứ sẽ như thế nào trong vài năm nữa khi AI được chuẩn hóa hơn. Những người nghe trẻ tuổi, những người lớn lên xung quanh AI, rất có thể sẽ không quan tâm. Thay vì khen ngợi một nhóm người làm podcast, người nghe sẽ khen ngợi mô hình được cung cấp dữ liệu.

Với giọng nói AI nghe rất thực tế, nhân loại đang tiến gần hơn một bước đến việc thực sự quên đi chính bản thân nhân loại. Google đã thành thạo nghệ thuật giọng nói, và chúng ta không biết hậu quả gì sẽ xảy ra.

Liên hệ đặt mua sản phẩm tại bài viết tại Viễn Đông Mobile

Viễn Đông Mobile là cửa hàng chuyên kinh doanh các sản phẩm điện tử phục vụ nhu cầu chơi game, bao gồm:

  • Gaming phone: Điện thoại cấu hình mạnh, tối ưu cho việc chơi game.
  • Máy tính bảng chuyên gaming: Màn hình lớn, hiệu năng cao, trải nghiệm game tốt hơn.
  • Phụ kiện cao cấp: Tai nghe, bàn phím, chuột,… hỗ trợ game thủ.

Thông tin liên hệ:

  • Địa chỉ: 211 đường 3/2, phường 10, quận 10, TP.HCM
  • Điện thoại: 0777600020
  • Email: [email protected]

Bản đồ chỉ đường

Gửi phản hồi