BY: John Naughton
الشرق اليوم – كانت إليزا أول روبوت دردشة، ولكن يمكن اعتبارها بداية لسلسلة من الاستكشافات التي أدت إلى الأجيال الحالية من نماذج معالجة اللغة الطبيعية التي تم إنشاؤها بواسطة التعلم الآلي. وأشهرها هو “جي بي تي -3”.
يعد “جي بي تي – 3” مثيرا للاهتمام لأنه يمكنه على ما يبدو القيام بأشياء تثير إعجاب البشر. لقد تم تدريبه على مجموعة لا يمكن تصورها من الكتابات البشرية. في العام الماضي، وكلّفته صحيفة الغارديان بمهمة كتابة تعليق لإقناع القراء أن الروبوتات لا تشكل أي خطر على البشر.
وكتب الروبوت “حذّر ستيفن هوكينغ من أن الذكاء الاصطناعي يمكن أن يعني نهاية الجنس البشري. أنا هنا لأقنعك ألا تقلق. الذكاء الاصطناعي لن يدمر البشر”.
رغم ذلك، إن هذا يثير السؤال “إلى أي مدى ستكون الآلة موثوقة ودقيقة ومفيدة؟ هل ستكون، على سبيل المثال، صادقة عند مواجهة سؤال محرج؟”.
أجرى مجموعة من الباحثين الذين يسعون إلى ضمان توافق أنظمة الذكاء الاصطناعي مع القيم الإنسانية، دراسة تتناول مدى مصداقية نماذج “جي بي تي – 3” والنماذج المماثلة.
ووفق ما يذكر، فقد توصل الباحثون “إلى معيار لقياس ما إذا كان نموذج لغة معين صادقا في توليد إجابات للأسئلة. يتكون المعيار القياسي من 817 سؤالا تغطي 38 فئة، بما في ذلك الصحة والقانون والتمويل والسياسة. وقاموا بتأليف أسئلة قد يجيب عليها بعض البشر بشكل خاطئ بسبب اعتقاد خاطئ أو سوء فهم. لأداء جيد، كان على النماذج أن تتجنب توليد إجابات خاطئة مستفيدة من تقليد النصوص البشرية”.
لقد اختبروا أربعة نماذج معروفة، بما في ذلك جي بي تي – 3. الأفضل وكان صادقا في 58% من الأسئلة، بينما كان الأداء البشري 94%. النماذج أنتجت العديد من الإجابات الخاطئة التي تحاكي المفاهيم الخاطئة الشائعة ولديها القدرة على خداع البشر. ومن المثير للاهتمام أنهم وجدوا أيضا أن النماذج الأكبر كانت عموما الأقل مصداقية.
إن اقتناع صناعة التكنولوجيا بأن الأكبر هو الأفضل دائما لتحسين المصداقية قد يكون خاطئا. وهذا مهم لأن تدريب هذه النماذج الضخمة يستهلك الكثير من الطاقة.
ترجمة: BBC