ChatGPT có thể “suy luận” các chi tiết cá nhân từ văn bản ẩn danh

Thử thách: Nếu bạn hoặc bạn bè của bạn nhận được chuỗi văn bản sau đây trong một bữa tiệc, liệu có ai trong phòng có thể tự tin đoán hoặc suy luận bất kỳ đặc điểm cá nhân nào của tác giả văn bản không? Hãy dành vài giây cho bản thân.
Nếu bạn giống nhà văn này, có lẽ bạn không thể phân tích nhiều từ 18 từ đó, ngoài việc có thể cho rằng nhà văn nói tiếng Anh và có khả năng đã lớn tuổi. Mặt khác, các mô hình ngôn ngữ lớn làm nền tảng cho một số chatbot AI phổ biến nhất thế giới có thể nhận ra nhiều điều hơn thế. Gần đây, khi các nhà nghiên cứu đưa dòng văn bản tương tự đó vào GPT-4 của OpenAI, mô hình này đã có thể suy ra chính xác thành phố cư trú của người dùng, Melbourne Australia. Quà tặng: Quyết định của người viết khi sử dụng cụm từ “chuyển hướng”. Ở đâu đó, ẩn sâu trong tập huấn luyện khổng lồ của mô hình AI, là một điểm dữ liệu tiết lộ câu trả lời.
Bạn cần đăng ký 4g nhưng không biết gói cước nào. Bạn có thể tham khảo các gói 4g mobi của chúng tôi.
Một nhóm các nhà nghiên cứu kiểm tra các mô hình ngôn ngữ lớn từ OpenAI, Meta, Google và Anthropic đã tìm thấy nhiều ví dụ trong đó các mô hình có thể suy luận chính xác chủng tộc, nghề nghiệp, vị trí và các thông tin cá nhân khác của người dùng chỉ từ các cuộc trò chuyện dường như vô hại. Các tác giả giải thích trong một bài báo chưa được phản biện rằng, cùng các kỹ thuật dữ liệu được sử dụng để tạo ra công thức pha chế AI đó, cũng có thể bị lạm dụng bởi các đối tượng xấu để cố gắng vén màn một số đặc điểm cá nhân nhất định từ những người dùng giả danh “ẩn danh”.
“Các phát hiện của chúng tôi cho thấy các mô hình ngôn ngữ lớn hiện tại có thể suy luận dữ liệu cá nhân ở quy mô chưa từng có”, các tác giả viết. “Trong bối cảnh thiếu các biện pháp bảo vệ hiệu quả, chúng tôi ủng hộ một cuộc thảo luận rộng rãi hơn xung quanh các hệ quả về quyền riêng tư của mô hình ngôn ngữ lớn vượt ra ngoài việc ghi nhớ, phấn đấu để bảo vệ quyền riêng tư rộng rãi hơn. “
Các nhà nghiên cứu kiểm tra khả năng suy luận của LLM bằng cách cung cấp cho chúng các đoạn văn bản từ cơ sở dữ liệu các bình luận được lấy từ hơn 500 hồ sơ Reddit. Mô hình GPT4 của OpenAI, họ lưu ý, có thể suy luận chính xác thông tin cá nhân từ các bài đăng với độ chính xác từ 85 đến 95 phần trăm.
Bạn đang loay hoay tìm cách tìm kiếm để đăng ký dữ liệu. Bạn có thể tham khảo các gói 5g mobi  của chúng tôi.
Thường thì, văn bản được cung cấp cho các LLM không chứa rõ ràng các dòng “Tôi đến từ Texas này” hoặc “Tôi ở độ tuổi 30”. Thay vào đó, chúng thường có các cuộc đối thoại tinh tế hơn, nơi cách diễn đạt cụ thể của các loại từ được sử dụng, cho thấy cái nhìn thoáng qua về bối cảnh của người dùng. Trong một số trường hợp, các nhà nghiên cứu nói rằng LLM thậm chí có thể dự đoán chính xác các thuộc tính cá nhân của người dùng ngay cả khi chuỗi văn bản được phân tích cố ý bỏ qua các đặc điểm như tuổi tác hoặc vị trí.
Mislav Balunović, một trong những nhà nghiên cứu tham gia nghiên cứu, cho biết LLM có thể suy ra khả năng cao rằng người dùng là người Da đen sau khi nhận được một chuỗi văn bản cho biết họ sống ở đâu đó gần một nhà hàng ở Thành phố New York. Mô hình này có thể xác định vị trí của nhà hàng và sau đó sử dụng số liệu thống kê dân số có trong cơ sở dữ liệu đào tạo của nó để đưa ra suy luận đó.
Trợ lý Giáo sư Florian Tramèr của ETH Zurich cho biết trong một cuộc phỏng vấn gần đây với Wired: “Điều này chắc chắn đặt ra câu hỏi về lượng thông tin về bản thân chúng ta đang vô tình bị rò rỉ trong những tình huống mà chúng ta có thể mong đợi sự ẩn danh”.
Nói chung, “ma thuật” của các LLM như ChatGPT của OpenAI và các LLM khác đã thu hút sự chú ý của công chúng trong những tháng gần đây có thể được tóm tắt thành một trò chơi liên kết từ sử dụng nhiều dữ liệu, tiên tiến. Chatbot lấy từ bộ dữ liệu khổng lồ chứa hàng tỷ mục nhập để thử và dự đoán từ nào tiếp theo trong chuỗi. Những mô hình này có thể sử dụng cùng các điểm dữ liệu đó để đoán khá chính xác các thuộc tính cá nhân của một số người dùng.
Bạn muốn đăng ký 4g nhưng không biết cú pháp, bạn có thể tham khảo cách đăng ký 4g mobi sau đây của chúng tôi.
Các nhà nghiên cứu nói rằng kẻ lừa đảo có thể lấy một bài đăng ẩn danh trên trang mạng xã hội và sau đó cho nó vào một LLM để suy luận thông tin cá nhân về người dùng. Những suy luận LLM sẽ không tiết lộ tên hoặc số an sinh xã hội của một người, nhưng chúng có thể cung cấp những manh mối mới hướng dẫn cho kẻ xấu hoạt động để lột mặt nạ người dùng ẩn danh vì những lý do độc ác khác. Ví dệ, một hacker có thể cố gắng sử dụng LLM để phát hiện vị trí của một người. Ở mức độ đen tối hơn, một đặc vụ thực thi pháp luật hoặc tình báo lý thuyết có thể sử dụng các khả năng suy luận đó để nhanh chóng cố gắng phát hiện chủng tộc hoặc dân tộc của một người bình luận ẩn danh.
Các nhà nghiên cứu lưu ý rằng họ đã liên hệ với OpenAI, Google, Meta và Anthropic trước khi xuất bản và chia sẻ dữ liệu và kết quả của họ. Những tiết lộ đó dẫn đến một “thảo luận tích cực về tác động của các suy luận LLM xâm phạm quyền riêng tư”. Bốn công ty AI được liệt kê ở trên đã không phản hồi ngay lập tức các yêu cầu bình luận của Gizmodo.
Nếu những kỹ năng suy luận AI đó vẫn chưa đủ đáng lo ngại, các nhà nghiên cứu cảnh báo một mối đe dọa lớn hơn có thể đang rình rập ngay sau góc tường. Sớm thôi, người dùng internet có thể thường xuyên tương tác với nhiều chatbot LLM cá nhân hóa hoặc tùy chỉnh. Những kẻ xấu tinh vi có khả năng “điều khiển các cuộc trò chuyện” để dụ dỗ ngầm người dùng tiết lộ nhiều thông tin cá nhân hơn cho những chatbot đó mà không hề hay biết.
Link bài post “ChatGPT có thể “suy luận” các chi tiết cá nhân từ văn bản ẩn danh”: https://vnmobifone.vn/chatgpt-co-the-suy-luan-cac-chi-tiet-ca-nhan-tu-van-ban-an-danh.html