Phân tích giọng nói với AI: Các bất ổn tâm lý sẽ sớm được phát hiện?
Các thử nghiệm ban đầu đang cho kết quả hứa hẹn, tuy nhiên vẫn có những lo ngại xung quanh ứng dụng trí tuệ nhân tạo trong phân tích giọng nói.
Một số nhà nghiên cứu AI tin rằng âm điệu của giọng nói có thể trở thành chìa khoá để xác định tình trạng tâm lý của người nói và AI hoàn toàn phù hợp để phát hiện những thay đổi trong âm sắc kiểu như vậy. Từ đó có thể xây dựng một bộ ứng dụng và các công cụ trực tuyến được thiết kế để theo dõi tình trạng tinh thần của người dùng cũng như các chương trình đánh giá theo thời gian thực qua chăm sóc sức khỏe từ xa.
Các nhà tâm lý học từ lâu đã phát hiện ra một số bệnh lý tâm thần cụ thể có thể được phát hiện thông qua không chỉ những gì người bệnh nói mà còn cách họ nói chúng, theo Maria Espinola, nhà nghiên cứu tâm lý và giáo sư trợ lý Đại học y dược Cincinnati.
Theo đó, những bệnh nhân trầm cảm thường có “giọng nói đơn điệu, phẳng và nhẹ nhàng hơn, đồng thời có phạm vi cao độ giảm và âm lượng thấp hơn. Họ cũng tạm dừng khi nói nhiều hơn”. Trong khi đó, người có bệnh lý lo lắng “có xu hướng nói nhanh hơn, khó thở hơn”.
AI phát hiện các đặc điểm giọng nói có ý nghĩa mà tai người thường bỏ qua
Ngày nay, các đặc điểm trong giọng nói đang được các nhà nghiên cứu máy học (machine learning) tận dụng để dự đoán chứng trầm cảm và lo lắng, cũng như một số bệnh lý khác như tâm thần phân liệt và rối loạn căng thẳng sau chấn thương. Việc sử dụng các thuật toán học sâu (deep learning) giúp khám phá ra các hình mẫu và đặc điểm bổ sung, được ghi lại trong các đoạn ghi âm ngắn mà ngay cả các chuyên gia được đào tạo cũng khó lòng phát hiện.
“Công nghệ chúng tôi đang sử dụng có thể tách xuất các đặc điểm có ý nghĩa mà tai người không thể phát hiện”, Kate Bentley, trợ lý giáo sư tại trường Y Harvard và là nhà tâm lý học lâm sàng tại bệnh viện đa khoa Massachusetts nói.
“Có nhiều sự phấn khích xung quanh việc tìm ra các phương pháp chẩn đoán tâm thần sinh học hay các chỉ báo khách quan hơn các hình thức đánh giá chủ quan truyền thống đang được sử dụng như các cuộc phỏng vấn lâm sàng và các mẫu báo cáo tự điền. Những manh mối khác giờ đây gồm thay đổi trong mức độ sinh hoạt, mô hình giấc ngủ và dữ liệu truyền thông xã hội.
Những lo ngại nhất định
Trước hết, đó là việc tạo ra công nghệ đảm bảo cân bằng và bình đẳng cho tất cả các bệnh nhân bất kể tuổi tác, giới tính, dân tộc, quốc tịch hay các tiêu chí nhân khẩu học khác.
“Để các mô hình máy học hoạt động tốt, bạn thực sự cần phải có bộ dữ liệu rất lớn, đa dạng và mạnh mẽ”, bà Chang chia sẻ, đồng thời lưu ý rằng Kintsugi đã sử dụng dữ liệu gồm các bản ghi âm giọng nói từ khắp nơi trên thế giới với nhiều ngôn ngữ khác nhau.
Tiếp đến, quyền riêng tư cũng là mối quan tâm lớn trong lĩnh vực non trẻ này, đặc biệt là dữ liệu giọng nói có thể được sử dụng để xác định danh tính cá nhân, theo Tiến sĩ Bentley.
Ngay cả khi bệnh nhân đồng ý ghi âm thì câu hỏi về sự đồng thuận đôi khi cũng không rõ ràng, vì ngoài việc được sử dụng để đánh giá sức khỏe tâm thần của bệnh nhân, một số chương trình phân tích giọng nói còn sử dụng các bản ghi âm để phát triển và tinh chỉnh các thuật toán riêng.
Một thách thức khác, theo Tiến sĩ Bentley, là việc người dùng có thể không tin tưởng vào máy học hay cái gọi là thuật toán hộp đen, do các công nghệ này hoạt động theo những cách mà ngay chính các nhà phát triển cũng không thể giải thích đầy đủ, đặc biệt đối với những tính năng mà họ sử dụng để đưa ra dự đoán.
“Có quá trình tạo ra thuật toán và quá trình tìm hiểu thuật toán đó”, Tiến sĩ Alexander S.Young, giám đốc lâm thời Viện khoa học thần kinh và hành vi con người Semel, kiêm chủ tịch khoa tâm thần học Đại học California cho biết, nhấn mạnh tới lo ngại chung của nhiều nhà khoa học AI: đó là có rất ít sự giám sát của con người trong giai đoạn đào tạo cho các chương trình này.
Do đó, ông cũng lạc quan một cách thận trọng về tiềm năng của công nghệ phân tích giọng nói, đặc biệt đối với các công cụ cho các bệnh nhân tự theo dõi.
“Tôi tin rằng mọi người có thể lập mô hình tình trạng sức khoẻ tâm thần hay ước tính tình trạng của mình một cách tổng quát. Nhiều người muốn tự theo dõi tình trạng bệnh lý của mình, nhất là với các bệnh mãn tính”.
Nhưng trước khi công nghệ tự động phân tích giọng nói được sử dụng phổ biến, nhiều người đang kêu gọi tiến hành các cuộc kiểm tra nghiêm ngặt về độ chính xác của chúng.
“Chúng tôi thực sự cần nhiều sự xác nhận hơn, không chỉ về công nghệ giọng nói, mà còn cả AI và các mô hình máy học được xây dựng dựa trên các luồng dữ liệu khác nữa”, Tiến sĩ Bentley cho hay. “Chúng tôi cần thấy được sự xác nhận từ các nghiên cứu bài bản trên quy mô lớn”.
Vinh Ngô (theo NewYorkTimes)
Gửi bình luận
Bài viết cùng chuyên mục
Mừng 3 triệu thuê bao: iTel tặng chủ nhân giải thưởng SIM Vàng trị giá 300.000.000 VNĐ
icon 0
Sáng ngày 5/4, iTel đã tổ chức trao giải cho khách hàng may mắn trúng thưởng chương trình “Chào đón thuê bao 3 triệu - Trao ngay SIM VÀNG HIỆU”.
Lý do Microsoft không bị xét nét như Google, Facebook
icon 0
Nhờ tạo dựng mối quan hệ tốt đẹp với các nhà lập pháp, Chủ tịch Brad Smith giúp Microsoft tránh những áp lực về độc quyền mà các công ty như Facebook hay Google đang đối mặt.
Chatbot trở thành tính năng buộc phải có trên website thương mại điện tử
icon 0
Với sự phát triển của trí thông minh nhân tạo (AI), các hộp thoại tự động (chatbot) đã trở thành tính năng buộc phải có trên bất kỳ website thương mại điện tử nào để hỗ trợ khách hàng cũng như giữ chân người dùng.
Katalon hợp tác với Đại học Khoa học tự nhiên và Fulbright đào tạo nhân lực chất lượng cao
icon 0
Công ty công nghệ có tệp khách hàng toàn cầu mong muốn đầu tư vào thế hệ trẻ tại Việt Nam, nhất là lĩnh vực trí tuệ nhân tạo và máy học.
Sử dụng các nền tảng công nghệ để thông tin hai chiều giữa chính quyền với người dân
icon 0
Việc xây dựng, sử dụng nền tảng công nghệ số nhằm tổ chức thông tin hai chiều trong hoạt động thông tin cơ sở, hướng tới mục tiêu thay đổi phương thức cung cấp, tiếp nhận thông tin giữa chính quyền, các cơ quan quản lý với người dân.
XEM THÊM BÀI VIẾT