دراسة تحذر من 'تدهور دماغي' في نماذج اللغة الكبيرة بسبب 'البيانات غير المرغوب فيها'

كشفت دراسة حديثة أن تدريب نماذج اللغة الكبيرة على 'بيانات غير مرغوب فيها' يمكن أن يؤدي إلى 'تدهور دماغي' لهذه النماذج، مما يضعف قدراتها المعرفية.

آخر تحديث 20252025-10-24T01:51:12Z

لقد أظهر الباحثون أن التدريب على 'البيانات غير المرغوب فيها' يمكن أن يؤدي إلى 'تدهور دماغي' في نماذج اللغة الكبيرة (LLMs).

على السطح، يبدو من البديهي أن تدريب نموذج لغة كبير ببيانات 'عالية الجودة' سيؤدي إلى أداء أفضل من تغذيته بأي 'بيانات منخفضة الجودة' قد تجدها. الآن، تحاول مجموعة من الباحثين قياس مدى الضرر الذي يمكن أن تسببه هذه الأنواع من البيانات منخفضة الجودة لنماذج اللغة الكبيرة، مما يؤدي إلى تأثيرات تشبه 'التدهور الدماغي' البشري.

من أجل ورقة بحثية تم نشرها هذا الشهر، استمد الباحثون من جامعات تكساس إيه آند إم، وجامعة تكساس، وجامعة بوردو، الإلهام من الأبحاث الحالية التي أظهرت كيف يمكن للبشر الذين يستهلكون 'كميات كبيرة من المحتوى التافه وغير المتحدي عبر الإنترنت' أن يصابوا بمشاكل في الانتباه والذاكرة والإدراك الاجتماعي. وقد قادهم ذلك إلى ما يسمونه 'فرضية التدهور الدماغي لنماذج اللغة الكبيرة'، والتي تلخص فكرة أن 'التدريب المسبق المستمر على نصوص الويب غير المرغوب فيها يؤدي إلى تدهور إدراكي دائم في نماذج اللغة الكبيرة'.

دراسة تحذر من 'تدهور دماغي' في نماذج اللغة الكبيرة بسبب 'البيانات غير المرغوب فيها'

قد يعجبك