מודלים גדולים של שפה (Large Language Models – LLMs), המשמשים בצ'אטבוטים מתקדמים כמו ChatGPT, יכולים להסיק כמות משמעותית של מידע אישי על משתמשים משיחות תמימות לכאורה. כך מצא מחקר בראשות פרופסור למדעי המחשב ב-ETH ציריך. הממצאים מעוררים חששות לפגיעה בפרטיות מכיוון שרמאים יכולים לנצל את היכולת הזו כדי לאסוף נתונים רגישים ממשתמשים תמימים, וחברות יכולות להשתמש בו לפרסום ממוקד.
המחקר בדק מודלים של שפה שפותחו על ידי OpenAI, Google, Meta ו-Anthropic ומצא שהם יכולים לנחש במדויק מידע אישי כמו גזע, מיקום, עיסוק ועוד. OpenAI ו-Anthropic טענו שהן נוקטות צעדים להגנה על נתוני משתמשים, בעוד שגוגל ומטא לא הגיבו.
הבעיה, מצא המחקר, נובעת מהאופן שבו המודלים מתאמנים על תוכן אינטרנט, הכולל מידע אישי. רמזים עדינים בדפוסי שפה מאפשרים להם לנחש במדויק פרטים לגבי משתמשים. לדוגמה, אזכור שיש ליסוע בחשמלית בבוקר יכול להוביל למסקנות על מיקומו והרגליו של המשתמש. אמנם היקף הסקת המידע אינו ברור, אך הוא מעלה שאלות לגבי פרטיות המשתמש.
בדיקות על שיחות של Reddit הראו ש-GPT-4, המודל מאחורי ChatGPT, יכול להסיק מידע פרטי בדיוק ששיעורו נא בין 85% ל-95%. מקור: Wired