دراسة تكشف: الذكاء الاصطناعي التوليدي يتجاهل كنوز المعرفة البشرية بسبب الفجوة الرقمية
كشفت دراسة حديثة أن أنظمة الذكاء الاصطناعي التوليدي، المدربة على بيانات الإنترنت، تفوت كميات هائلة من المعرفة البشرية غير الرقمية أو الممثلة تمثيلاً ناقصًا عبر الإنترنت، مما يسلط الضوء على فجوة معرفية كبيرة ناتجة عن التحيز اللغوي الرقمي.
آخر تحديث
كشفت دراسة جديدة أن أنظمة الذكاء الاصطناعي التوليدي تفوت كميات هائلة من المعرفة البشرية التي تظل غير رقمية أو ممثلة تمثيلاً ناقصًا عبر الإنترنت. ويعود السبب الرئيسي في ذلك إلى اعتماد هذه النماذج على بيانات الإنترنت، حيث تهيمن اللغة الإنجليزية بنسبة 44% من المحتوى على Common Crawl.
تظهر الأرقام فجوة صارخة في تمثيل اللغات الأخرى؛ فبينما تمثل اللغة الهندية 0.2% فقط من البيانات، يتحدثها 7.5% من سكان العالم. وبالمثل، تمثل اللغة التاميلية 0.04% فقط على الرغم من وجود 86 مليون متحدث بها حول العالم. وتشير الإحصائيات إلى أن ما يقرب من 97% من لغات العالم مصنفة على أنها "منخفضة الموارد" في مجال الحوسبة.
ووفقًا لدراسة أجريت عام 2020، تواجه 88% من اللغات إهمالًا شديدًا في تقنيات الذكاء الاصطناعي، لدرجة أن سد هذه الفجوة سيتطلب جهودًا جبارة. وكشفت الأبحاث حول النباتات الطبية في أمريكا الشمالية وشمال غرب الأمازون وغينيا الجديدة أن أكثر من 75% من 12,495 استخدامًا مميزًا لأنواع النباتات كانت فريدة للغة محلية واحدة فقط.
يحذر الباحثون من أن نماذج اللغة الكبيرة تضخم الأنماط السائدة من خلال ما يسمونه "تضخيم النمط" (mode amplification)، مما يعني أنها تعزز اللغات والأنماط الثقافية الموجودة بكثرة على الإنترنت، وتترك اللغات والمعارف الأخرى في الظل.
قد يعجبك
- NordVPN تفتح مصدر تطبيقها الرسومي لنظام Linux، وتعزز الشفافية وسهولة الوصول
- OpenAI تسمح بالمحتوى الإباحي للبالغين الذين تم التحقق منهم في ChatGPT هذا ديسمبر
- مايكروسوفت ترفض الكشف عن تدفق البيانات لشرطة اسكتلندا
- ترامب يعين وزير النقل لقيادة ناسا مؤقتًا
- الولايات المتحدة تتجه نحو انكماش سكاني تاريخي في عام 2025
- الذكاء الاصطناعي العام يواجه عيوبًا أمنية جوهرية: خبراء يحذرون من نقاط ضعف متأصلة في التصميم
- ميتا تستخدم محادثات الذكاء الاصطناعي لتخصيص الإعلانات والمحتوى
- OpenAI تضيف Google Cloud كمزود لـ ChatGPT