دراسة تكشف: الذكاء الاصطناعي التوليدي يتجاهل كنوز المعرفة البشرية بسبب الفجوة الرقمية

كشفت دراسة حديثة أن أنظمة الذكاء الاصطناعي التوليدي، المدربة على بيانات الإنترنت، تفوت كميات هائلة من المعرفة البشرية غير الرقمية أو الممثلة تمثيلاً ناقصًا عبر الإنترنت، مما يسلط الضوء على فجوة معرفية كبيرة ناتجة عن التحيز اللغوي الرقمي.

آخر تحديث 20252025-10-15T02:50:09Z

كشفت دراسة جديدة أن أنظمة الذكاء الاصطناعي التوليدي تفوت كميات هائلة من المعرفة البشرية التي تظل غير رقمية أو ممثلة تمثيلاً ناقصًا عبر الإنترنت. ويعود السبب الرئيسي في ذلك إلى اعتماد هذه النماذج على بيانات الإنترنت، حيث تهيمن اللغة الإنجليزية بنسبة 44% من المحتوى على Common Crawl.

تظهر الأرقام فجوة صارخة في تمثيل اللغات الأخرى؛ فبينما تمثل اللغة الهندية 0.2% فقط من البيانات، يتحدثها 7.5% من سكان العالم. وبالمثل، تمثل اللغة التاميلية 0.04% فقط على الرغم من وجود 86 مليون متحدث بها حول العالم. وتشير الإحصائيات إلى أن ما يقرب من 97% من لغات العالم مصنفة على أنها "منخفضة الموارد" في مجال الحوسبة.

ووفقًا لدراسة أجريت عام 2020، تواجه 88% من اللغات إهمالًا شديدًا في تقنيات الذكاء الاصطناعي، لدرجة أن سد هذه الفجوة سيتطلب جهودًا جبارة. وكشفت الأبحاث حول النباتات الطبية في أمريكا الشمالية وشمال غرب الأمازون وغينيا الجديدة أن أكثر من 75% من 12,495 استخدامًا مميزًا لأنواع النباتات كانت فريدة للغة محلية واحدة فقط.

يحذر الباحثون من أن نماذج اللغة الكبيرة تضخم الأنماط السائدة من خلال ما يسمونه "تضخيم النمط" (mode amplification)، مما يعني أنها تعزز اللغات والأنماط الثقافية الموجودة بكثرة على الإنترنت، وتترك اللغات والمعارف الأخرى في الظل.

دراسة تكشف: الذكاء الاصطناعي التوليدي يتجاهل كنوز المعرفة البشرية بسبب الفجوة الرقمية

قد يعجبك