Bạn có đang nghĩ làm sao để máy tính có thể nói được không? Nó hoàn toàn hoạt động bằng điện nhưng vẫn có thể nghe và đáp lại lời bạn nói. Mọi máy tính hiện nay đều được trang bị một bộ tổng hợp giúp biến văn bản thành giọng nói. Ngoài những việc thực tế như giúp những người khiếm thị nghe được chữ, hay có thể giúp máy móc có thể giao tiếp được với con người. Chúng ta hãy cùng tìm hiểu về bộ tổng hợp giọng nói này.

Bộ tổng hợp giọng nói là gì?

Máy tính xử lý một thông tin bằng 3 giai đoạn: Tín hiệu đưa vào (nơi bạn cung cấp thông tin muốn truyền đạt cho máy tính), Xử lý tín hiệu (nơi máy tính phản hồi và xử lý thông tin bạn đưa vào cho nó), Xuất tín hiệu (sau khi được xử lý, tín hiệu sẽ được xuất ra theo nhiều dạng khác nhau, đối với bộ tổng hợp giọng nói thì thường sẽ xuất ra dạng âm thanh). Bộ tổng hợp giọng nói đơn giản là xuất thông tin ra loa bằng cách phát âm nó. Trong các smartphone hiện nay nó còn được gọi là bộ chuyển văn bản thành giọng nói viết tắt là TTS.

Máy nói không phải là một thứ quá mới mẻ, nó xuất hiện từ những năm của thế kỷ 18. Nhưng các máy tính nói chuyện thường xuyên với người điều khiển nó thì cực kỳ hiếm. Giáo sư Stephen Hawking là một ví dụ khi chúng ta nói về ứng dụng của bộ tổng hợp giọng nói. Ông không thể giao tiếp như những người bình thường, nhưng nhờ có máy móc đã giúp ông làm được điều đó. Nhưng những giọng nói đó vẫn là của máy tính. Trong tương lai với nhiều công nghệ tiên tiến hơn, giọng nói máy sẽ dần giống với con người hơn.

Bộ tổng hợp giọng nói hoạt động thế nào?

Giả sử bạn có một đoạn văn bản mà bạn muốn máy tính mình đọc nó lên. Làm thế nào để máy tính có thể đọc được đoạn văn bản đó. Về cơ bản có 3 giai đoạn, đầu tiên bạn sẽ phải biến đoạn văn bản đó thành các ký tự chữ bằng cách đánh nó từ bàn phím, sau đó biến các từ đó thành các âm vị, từ âm vị chuyển thành âm thanh phát ra loa.

1. Văn bản thành từ

Việc đọc các văn bản nghe thì có vẻ dễ, nhưng đối với những đứa trẻ nhỏ thì thật là khó khăn. Vấn đề chính ở đây là thông tin được viết ra sẽ không mang một ý nghĩa rõ rang, có có thể mang nhiều ý nghĩa khác nhau với cùng một thông tin. Vì thế giai đoạn đầu tiên trong quá trình xử ký thông tin gọi là tiền xử lý hay chuẩn hoá thông tin nhằm giảm ý nghĩa không chính xác của thông tin, nhằm giúp cho việc đọc văn bản một cách hợp lý và chính xác nhất.

Quá trình tiền xử lý bao gồm việc đọc lướt qua văn bản và loại bỏ các ký tự lỗi trước khi đọc nó. Những con số như ngày, giờ, tiền tệ, những từ viết tắt cần được chuyển toàn bộ thành các ký tự. Ví dụ với con số 1843, nó có thể mang ý nghĩa là một năm, hay một mã số hàng hoá, hay số lượng. Con người có khả năng tự xem xét những ý nghĩa phù hợp và đọc nó lên sao cho hợp lý. Nhưng máy tính không có khả năng như vậy, và có một phương pháp sử dụng các kỹ thuật xác suất thông kê (điển hình là mô hình Markov) hoặc mạng tế bào thần kinh (các chương trình máy tính có cấu trúc như các mạng tế bào có khả năng học và nhận biết các mẫu) để có khả năng phát âm tốt nhất.

2. Words to phonemes

Sau khi xác định được các từ cần phải nói, bộ tổng hợp giọng nói bây giờ tạo ra âm thanh của những từ cần nói. Về lý thuyết các máy tính chỉ cần một danh sách khổng lồ các từ theo thứ tự bảng chữ cái và chi tiết cách phát âm của nó. Và đối với mỗi từ, chúng ta cần một danh sách các âm vị tạo nên âm thanh cho nó.

Âm vị là gì?

Nói một cách dễ hiểu thì âm vị là cách phát âm của một từ. Ví dụ như từ “cat” gồm 3 âm vị là âm /k/, /a/, /t/. Sắp xết 3 âm vị đó lại và được “cat” theo đúng vị trí. Và nếu đổi vị trí chúng ta cũng có được từ “act” hay “tack”.

Tiếng anh có 26 chữ cái nhưng lại có 40 âm vị bởi vì có một số chữ cái có thể được đọc theo nhiều cách khác nhau. Trong một số ngôn ngữ khác lại có 20-60 âm vị. Tóm tắt âm vị là cách phát âm của mỗi chữ cái. Nếu bạn muốn tìm hiểu thêm hãy bắt đầu với bài viết về âm vị trong Wikipedia.

Vậy chúng ta có thể đã nghĩ ra cách mà bộ tổng hợp giọng nói hoạt động, nó cần một thư viện khổng lồ các âm vị của mọi từ. Nhưng thực tế nó khó hơn như thế nhiều, bởi với cùng một câu nêu đọc theo ngữ điệu khác nhau sẽ mang một ý nghĩa khác. Đây cũng là vấn đề khó khăn nhất mà bộ tổng hợp giọng nó gặp phải.

Một cách tiếp cận khác là chúng ta chia các từ đó thành các phiên âm nhỏ của chúng, giống như cách phát âm của một đứa trẻ với một từ chúng chưa từng gặp vậy. Điều này có lợi thế khi chúng ta không cần phải lưu hàng triệu từ ngữ khác nhau với rất nhiều các cách phát âm. Bằng cách này máy tính sẽ cố gắng đọc và phát âm nó một cách hợp lý nhất. Tuy nhiên cũng có một số điểm bất lợi, có một lượng lớn các từ có cách đọc không theo một quy tắc nào và đó cũng là vấn đề đối với các đứa trẻ khi lần đầu gặp những từ đó. Có lẽ một cách tối ưu nhất là kết hợp một thư viện các từ bất quy tắc và đọc theo quy tắc.

3. Âm vị chuyển thành âm thanh

Sau khi đã chuyển đổi các văn bản thành các âm vị mà máy tính hiểu được. Vậy thì làm sao máy tính có thể đọc lên được các âm vị đó. Có 3 cách tiếp cận để giải quyết được vấn đề này: Một là sử dụng máy ghi âm và ghi lại những âm vị đó và để máy tính phát lại những đoạn ghi âm, hai là để máy tính tự phát âm bằng cách tạo ra những tần số âm thanh giống với các âm vị đó, ba là bắt chước cơ chế giọng nói của con người.

Cách ghép nối các âm vị

Với cách sử dụng những bản ghi âm vị từ con người, mỗi từ sẽ chia thành các âm vị nhỏ và sau đó các lập trình viên phải thực hiện ghi âm và ghép nối rất nhiều các bản ghi âm khác nhau. Với một số lượng âm vị khổng lồ, máy tính có thể ghép nối được các đoạn âm vị với nhau và tạo nên một từ hoặc câu mới. Vì đây là bản ghi âm từ con người nên ngữ điệu nói rất tự nhiên và thường được sử dụng cho tổng đài điện thoại, tuy nhiên cách này có một số hạn chế chỉ có một giọng nói với một giới tính nhất định và một ngôn ngữ duy nhất

Formant – Tạo âm thanh bằng tần số và biên độ

Nếu bạn phân tích các âm thanh thành các tần số và biên độ thì mọi âm thanh đều có thể tạo từ các máy móc, nó khá là giống với bộ tổng hợp âm thanh. Và cách tổng hợp giọng nói này được gọi là Formant, bao gồm 3-5 âm điệu tần số mà các máy phát âm thanh con người tạo ra và kết hợp với tiếng nói, tiếng hát. Không giống như sử dụng cách nối các âm vị, bị hạn chế bởi việc sắp xếp các âm thanh được ghi âm sẵn trước đó, trình tổng hợp giọng nói này có thể nói được bất cứ thứ gì ngay cả những từ không tồn tại hoặc những từ chưa từng gặp. Cách này được ứng dụng trong các thiết bị GPS hiện nay, nó có thể đọc được tên của rất nhiều các địa danh khác nhau mà không cần phải nhớ chúng. Về lý thuyết, bộ tổng hợp Formant có thể chuyển từ giọng nam sang giọng nữ bằng cách tăng gấp đôi tần số âm thanh, và chúng có thể nói được bất kỳ ngôn ngữ nào. Nếu để so sánh rõ ràng giữa hai bộ chuyển đổi này thì bộ chuyển đổi ghép nối có chất giọng thật với con người hơn nhưng bị giới hạn bởi thư viện của nó, còn bộ Formant có chất giọng khá robot không được tự nhiên nhưng có thể nói được bất kỳ từ nào.

Khớp nối

Một cách khác để robot hay máy móc có khả năng nói chuyện như con người đó là sử dụng bộ tổng hợp giọng nói khớp nối. Phương pháp này mô phỏng lại cách thức phát âm phức tạp của con người, cụ thể là tạo ra một công cụ giống với miệng, lưỡi,… các bộ phận mà giúp con người phát âm được. Nhưng trên thực tế khá phức tạp và vì thế cho đến hiện nay phương pháp này vẫn ít được nghiên cứu bởi tính phức tạp của nó. Một điều chắc chắn là nếu phương pháp này thành công, sẽ cho ra đời những con robot đầu tiên biết cử động khoang miệng như con người bằng các cơ cấu cơ khí điện tử.

Bộ tổng hợp giọng nói sử dụng vào mục đích gì?

Bộ tổng hợp giọng nói xuất hiện rất nhiều trong cuộc sống hiện tại của chúng ta, bạn có một máy GPS biết chỉ đường cho bạn trong khi bạn đang lái xe. Bạn có các trợ lý ảo như Siri, Cortana, Google Assistant có thể làm được rất nhiều việc hữu ích cho bạn trong đời sống hàng ngày. Hầu hết các máy tính hiện nay đều có khả năng đọc lên các văn bản và điều này giúp ích một phần lớn cho những người khiếm thị để đọc sách báo hay tiếp nhận bất cứ thông tin nào. Gần đây, Google ra mắt trình ghi âm có khả năng chuyển đổi các file ghi âm thành văn bản, chúng ta có thể nghĩ đó là bộ chuyển đổi ngược giọng nói và điều này giúp ích rất nhiều trong các công việc báo chí hay phỏng vấn. Tóm lại bộ tổng hợp giọng nói có mặt ở khắp mọi nơi quanh chúng ta và nó đang đóng góp rất nhiều công dụng cho cuộc sống con người. Bạn hãy thử liệt kê xem xung quanh bạn có bao nhiêu thiết bị sử dụng bộ tổng hợp này nhé.

Ai phát minh ra bộ tổng hợp giọng nói?

Trước khi bộ tổng hợp này ra đời, các máy tính biết nói nghe giống như là một cái gì đó ngoài sức tưởng tượng và hoàn toàn là khoa học viễn tưởng. Trong một bộ phim của Stanley Kubrick vào năm 2001 có tên Space Odyssey, một máy tính có tên là HAL có khả năng nói chuyện giống như con người.

Và đây là tổng quan quá trình phát triển của bộ tổng hợp giọng nói:

1769: Nhà phát minh người Áo-Hungari Wolfgang von Kempelen phát triển một máy nói cơ học đầu tiên, sử dụng các ống thổi và kèn để tạo ra những tiếng động thô tương tự con người. Đây là ứng dụng đầu tiên về bộ tổng hợp khớp.
1770s: Cùng thời gian này, nhà khoa học người Đan Mạch Christian Kratzenstein làm việc tại Nga chế tạo một hệ thống máy nói giống như con người sử dụng các ống khí và có khả năng nói được 5 mẫu âm. Vào năm 1791 ông đã viết một cuốn sách với tiêu đề Mechanism of Human Language with a Description of a Speaking Machine (Cơ chế ngôn ngữ của con người và sự mô tả với máy nói)
1837: Nhà phát minh người Anh Charles Wheastone đã phát triển lại phiên bản cải tiến của máy nói von Kempelen
1928: Nhà khoa học người Mỹ Homer W.Dudley làm việc tại phòng thí nghiệm Bell phát triển một thiết bị phân tích giọng nói điện tử được gọi là Vocoder và sau đó phát triển nó thành Voder, một bộ tổng hợp giọng nói điện tử hoạt động thông qua bàn phím.
1940s: Một nhà khoa học khác người Mỹ, Frank Cooper của phòng thí nghiệm Haskins, đã phát triển một hệ thống có tên là Pattern Playback có thể tạo ra âm thanh giọng nói từ phổ tần số
1953: Nhà khoa học người Mỹ, Walter Lawrence chế tạo PAT (Parametric Artificial Talker), bộ tổng hợp định dạng đầu tiên, tạo ra âm thanh giọng nói bằng cách kết hợp 4 đến 6 tần số âm thanh và sau đó tăng lên 8.
1958: Nhà khoa học George Rosen của MIT phát triển một bộ tổng hợp khớp gọi là DAVO
1960s/1970s: Trở lại phòng thí nghiệm Bell. Cecil Coker nghiên cứu các phương pháp tổng hợp khớp nối tốt hơn, còn Joseph P.Olive phát triển phương pháp tổng hợp khớp nối.
1978: Texas Instruments phát hành chip tổng hợp giọng nói TMC0281 và ra mắt đồ chơi điện tử cần tay có tên Speak and Spell, sử dụng giọng nói dạng thô để làm công cụ hỗ trợ giảng dạy.
1984: Máy tính Apple Macintosh được trang bị bộ tổng hợp giọng nói MacInTalk
2001: AT&T giới thiệu Natural Voices, một bộ tổng hợp giọng nói nối tiếp âm thanh tự nhiên dựa trên cơ sở dữ liệu khổng lồ về các mẫu âm thanh được ghi lại tử người thật.
2011: Apple thêm Siri vào điện thoại thông minh của mình, một công cụ hỗ trợ giọng nói thông minh
2014: Microsoft công bố Skype Translator, có thể tự động dịch một cuộc trò chuyện sang 40 ngôn ngữ khác nhau. Cùng năm đó Microsoft giới thiệu Cortana, trợ lý ảo thông minh của họ
2015: Amazon Echo phát hành Alexa một cô trợ lý ảo bằng giọng nói
2016: Google phát hành Google Assistant và sau đó kết hợp với Google Home

Tự động hóa

Bộ tổng hợp giọng nói