يُعد جمع بيانات الذكاء الاصطناعي عملية أساسية تهدف إلى تجميع البيانات اللازمة لبناء حالات استخدام الذكاء الاصطناعي داخل المؤسسات. وتشمل هذه الحالات مشاريع تعتمد على التعلم الآلي الإحصائي، أو التعلم العميق، أو حتى النماذج اللغوية الكبيرة (LLMs). وفي حين تتطلب مشاريع التعلم الآلي والتعلم العميق بيانات لكلٍ من التدريب والتقييم، فإن التطبيقات المعتمدة على النماذج اللغوية الكبيرة تحتاج في الغالب إلى البيانات لأغراض الاستدلال فقط.

على مستوى عام، يتضمن جمع بيانات الذكاء الاصطناعي الحصول على كميات كبيرة من البيانات من مصادر متعددة، مثل المواقع الإلكترونية، وواجهات البرمجة (APIs)، وأجهزة الاستشعار، ومنصات التواصل الاجتماعي، وتفاعلات المستخدمين على مواقع المؤسسة. وقد تكون هذه البيانات منظمة أو غير منظمة، وبمستويات جودة متفاوتة. ولضمان فعالية عملية جمع البيانات، يجب دمج ممارسات إدارة جودة البيانات وحوكمتها ضمن هذه العملية.

- مصادر البيانات:

يؤثر مصدر البيانات بشكل مباشر على تصميم خط أنابيب الذكاء الاصطناعي (AI Pipeline). وفيما يلي نظرة عامة على أبرز أنواع مصادر البيانات المستخدمة:

- جمع البيانات عبر الويب (Web Scraping):

عادةً ما تكون البيانات المستخرجة من الويب غير منظمة، وقد تحتوي على عناصر HTML غير مرغوب فيها. ومع تزايد استخدام أدوات الحماية مثل Cloudflare، أصبحت العديد من المواقع تقوم بحظر أدوات الاستخلاص الآلي.

- استعلامات واجهات البرمجة (API Queries):

توفر العديد من الجهات المزودة للبيانات واجهات REST API تتيح إرسال طلبات إلى نقاط اتصال عبر HTTPS واستلام البيانات، غالبًا بصيغة JSON. وقد تكون هذه الاستعلامات محدودة بمعدلات استخدام (Rate Limits) وفقاً للاتفاق مع مزود الخدمة.

- الملفات الضخمة (Monolithic Files):

قد يقوم بعض مزودي البيانات بإتاحة ملفات كبيرة (مثل ملفات ZIP) للتنزيل، والتي يتم استخراجها محلياً لاستخدامها لاحقاً في المعالجة.

- استعلامات قواعد البيانات (Database Queries):

تعتمد العديد من المؤسسات على قواعد بيانات داخلية يمكن الاستعلام عنها باستخدام SQL أو أدوات مرئية. كما تتيح النماذج اللغوية الكبيرة إمكانية الاستعلام بلغة طبيعية، وتكون البيانات الناتجة عادةً منظمة بدرجة عالية.

- المحتوى المُنشأ من قبل المستخدم (User-Generated Content):

يمثل المستخدمون مصدراً مهماً للبيانات من خلال تفاعلاتهم مع النظام، حيث تكون هذه البيانات آنية ومرتبطة بشكل مباشر بأداء النظام. ومع ذلك، تُعد خصوصية المستخدم من أهم التحديات في هذا السياق.

- بيانات أجهزة الاستشعار (Sensor Data):

يتم توليد كميات هائلة من بيانات الاستشعار بشكل مستمر في مختلف القطاعات، مثل المصانع والمرافق والمنشآت التجارية والسكنية، وغالباً ما تكون هذه البيانات غير نصية وغير مرئية.

- توليد البيانات الاصطناعية (Data Synthesis):

على الرغم من أن البيانات الواقعية تعكس المشكلات الفعلية بدقة، إلا أن جمعها قد يكون مكلفاً ويرتبط بمخاطر تتعلق بالخصوصية. لذلك، يُعد توليد البيانات الاصطناعية بديلاً فعالاً لتقليل هذه التحديات، خاصةً في عمليات التدريب والتقييم، ويمكن تنفيذه باستخدام أساليب قائمة على القواعد أو عبر النماذج اللغوية.

نظراً لتعدد مصادر البيانات وتنوع أنواعها، فإن تطوير أنظمة مخصصة لاستيعاب البيانات (Data Ingestion Systems) قد يكون عملية معقدة وتستغرق وقتاً طويلاً، بالإضافة إلى ما تحمله من مخاطر. إن دمج كميات كبيرة من البيانات المختلفة ضمن نظام ذكاء اصطناعي واحد، وضمان توافقها وصياغتها بالشكل الصحيح، يتطلب تخطيطاً دقيقاً وأتمتة فعّالة.

تشمل هذه العملية مهام مثل التكامل، والمزامنة، والتوحيد القياسي، والمعالجة المسبقة لمصادر متعددة ومتنوعة. فعلى سبيل المثال، قد يعتمد نظام ذكاء اصطناعي على دمج بيانات تفاعلات المستخدمين في الوقت الفعلي، مع قواعد بيانات تاريخية علائقية من مزود سحابي، وقاعدة بيانات NoSQL داخلية يتم تحديثها باستمرار، بالإضافة إلى بيانات صوتية من تدفقات آنية.

- البيانات المنظمة وغير المنظمة:

يمكن تصنيف البيانات المستخدمة في تدريب وتشغيل أنظمة الذكاء الاصطناعي بشكل عام إلى نوعين:

* البيانات غير المنظمة: وتشمل النصوص، والصوتيات، والصور، والبيانات الثنائية، وتتميز بتنوع أشكالها وأحجامها.

* البيانات المنظمة: وهي البيانات المخزنة في قواعد بيانات علائقية أو NoSQL، وتكون ذات هيكل محدد.

في حين اعتمدت نماذج التعلم الآلي التقليدية بشكل كبير على البيانات المنظمة، فقد أحدث ظهور النماذج اللغوية الكبيرة ونماذج الرؤية-اللغة تحولاً كبيراً، حيث أصبحت قادرة على فهم البيانات غير المنظمة وتحليلها واتخاذ قرارات مبنية عليها.