ייצוגית נגד ChatGPT: העתקת ספרים לאימון = הפרת זכויות יוצרים

הפורטל המשפטי לאינטרנט, סייבר וטכנולוגיית מידע

אתר האינטרנט של עו"ד חיים רביה העומד בראש קבוצת האינטרנט, הסייבר וזכויות היוצרים של פרל כהן צדק לצר ברץ. פועל מ־1996

תובענה המבקשת מעמד כתביעה ייצוגית הוגשה נגד OpenAI, מפתחת ChatGPT, בטענה שהעתקת ספרים לצרכי אימון מודל הבינה המלאכותית מפרה זכויות יוצרים. התביעה הוגשה בקליפורניה בידי שני סופרים. היא מבקשת הכרה בשם כל תושבי ארצות-הברית המחזיקים בזכויות יוצרים בארה"ב בכל יצירה ששימשה לצרכי אימון מודלים של OpenAI.

לטענת התביעה, לצורך אימון AI מודל השפה הגדול שביסודה (LLM – Large Language Model) מעתיק כל טקסט שהוזן לו ומשתמש בביטוי המגולם בו. מודל השפה הגדול מתאים בהדרגה את הפלט שלו כדי להידמות יותר לרצפי המילים שהועתקו מחומרי האימון, נטען.

לדברי התובעים, חלק גדול מהמידע המשמש לאימון GPT מקורו ביצירות המוגנות בזכויות יוצרים - כולל ספרים שנכתבו על ידי התובעים. OpenAI העתיקה אותן ללא הסכמה, ללא קרדיט וללא פיצוי לבעלי הזכויות: ספרים, אומרת התביעה, היו תמיד מרכיב מרכזי באימון מודלים של שפות גדולות מכיוון שהם מספקים את הדוגמאות הטובות ביותר לכתיבה ארוכה באיכות גבוהה. OpenAI חשפה כי 15% ממערך ההדרכה העצום של GPT-3 הגיעו מ"שני קורפוסי ספרים מבוססי אינטרנט": האחד, התביעה סבורה, הוא פרויקט גוטנברג; לגבי השני, היא סבורה כי הוא כולל ספרים שהועתקו באופן לא חוקי.

התובעים וחברי הקבוצה, שבשמם מבקשת התביעה הכרה כיצוגית, לא הסכימו לשימוש בספרים המוגנים בזכויות יוצרים שלהם כחומרי אימון עבור ChatGPT. הנתבעים, לדברי התביעה, עושים רווח מהשימוש בחומרים המוגנים בזכויות יוצרים. עילות התביעה כוללות הפרה ישירה של זכויות יוצרים, הפרת זכויות יוצרים שילוחית, הפרת ה- DMCA על-ידי הסרת מידע לניהול זכויות יוצרים, תחרות בלתי הוגנת, רשלנות ועוד {Tremblay et al. v. OpenAI et al., case number 3:23-cv-03223}.

law.co.il מציין שטענת ההגנה המהותית שתצריך בירור בתביעה היא האם העתקת חומרים מוגנים לאימון בינה מלאכותית היא שימוש הוגן. בנובמבר אשתקד מצאה חוות דעת שערכה דר. ליטל הלמן עבור משרד המשפטים בישראל, ששימוש כזה הוא הוגן, אלא שחוות הדעת חלה כמובן בישראל בלבד וגם היא אינה משקפת אלא את עמדת המשרד.

כניסה