toolsنُشر فـ 4 juin 20263 دقائق قراءة

PaddleOCR 3.5: قراءة الوثائق بـ Transformers بدل الـ Paddle

PaddleOCR 3.5 خلات الـ Transformers واحد من الخيارات ديال التشغيل. معناها: أداة قراءة الوثائق والنصوص من الصور تقدر تشتغل فالبيئة ديال Hugging Face بسهولة أكثر.

PaddleOCR 3.5: قراءة الوثائق بـ Transformers بدل الـ Paddle

شنو هي PaddleOCR؟

PaddleOCR هي أداة مفتوحة المصدر (Open source) كتقرا النصوص من الصور والوثائق الممسوحة ضوئيا. تخيل ليك: عندك صورة ديال عقد ولا فاتورة، PaddleOCR كتحول الصورة لنص قابل للبحث والتحليل.

الأداة كانت تستعمل محركها الخاص (backend ديالها) باش تشتغل. لكن الآن، مع الإصدار 3.5، تقدر تستعملها مع Transformers — وهي المكتبة الأساسية اللي كتستعملها معظم مشاريع الـ AI الحديثة.

علاش هاد التغيير مهم؟

إيلا كنتي مطور كتشتغل على مشروع RAG ولا Document AI (معالجة الوثائق بالـ AI)، عادة كتستعمل Transformers و PyTorch باش تحمل النماذج وتشتغل عليها. قبل هسا، PaddleOCR كانت تستعمل نظام مختلف، معناها كان خاصك تتعلم طريقة جديدة.

الآن، PaddleOCR كتشتغل مع Transformers مباشرة — نفس الطريقة اللي كتستعملها باقي النماذج ديالك.

المشكلة اللي كانت PaddleOCR كتحلها

في RAG و Document AI، الجزء الصعيب ماشي القسم اللي كيجي بعد. المشكلة الحقيقية: كيفاش تحول PDF، صور ممسوحة ضوئيا، جداول، وصيغ رياضية لنص منظم وموثوق؟

إيلا هاد الخطوة (اللي كتسمى Document Ingestion — استخراج البيانات من الوثائق) ضعيفة، الـ LLM بعدها كيقدر يخطئ ويعطيك معلومات غلط.

PaddleOCR كتحل هاد المشكلة بنماذج متخصصة:

  • PP-OCRv5: قراءة النصوص من الصور
  • PaddleOCR-VL 1.5: فهم الصور المعقدة (جداول، رسوم بيانية، صيغ)

كيفاش كتستعملها الآن؟

التنصيب (Installation)

<bdi>python</bdi> -m <bdi>pip install torch torchvision torchaudio</bdi> --<bdi>index-url https</bdi>://<bdi>download.pytorch.org</bdi>/<bdi>whl</bdi>/<bdi>cu126</bdi>
<bdi>python</bdi> -m <bdi>pip install</bdi> "<bdi>paddleocr</bdi>==3.5.0" "<bdi>paddlex</bdi>==3.5.2" "<bdi>transformers</bdi>>=5.4.0"

استعمال بسيط

<bdi>from paddleocr import PaddleOCR</bdi>

<bdi>pipeline</bdi> = <bdi>PaddleOCR</bdi>(
    <bdi>device</bdi>="<bdi>gpu</bdi>:0",
    <bdi>engine</bdi>="<bdi>transformers</bdi>",  # هنا كتقول: استعمل <bdi>Transformers</bdi>
    <bdi>engine_config</bdi>={
        "<bdi>dtype</bdi>": "<bdi>float32</bdi>",
    },
)

<bdi>results</bdi> = <bdi>pipeline.predict</bdi>("<bdi>path</bdi>/<bdi>to</bdi>/<bdi>image.jpg</bdi>")
<bdi>for result in results</bdi>:
    <bdi>print</bdi>(<bdi>result</bdi>)

الفرق الأساسي: <bdi>engine</bdi>="<bdi>transformers</bdi>" — هاد الشي اللي جديد. قبل هسا، كنت مجبور تستعمل المحرك الافتراضي ديال Paddle.

الإعدادات المتقدمة

إيلا بغيتي تحسن الأداء على حسب الـ GPU ولا الـ CPU ديالك:

<bdi>engine_config</bdi> = {
    "<bdi>dtype</bdi>": "<bdi>bfloat16</bdi>",        # نوع البيانات (<bdi>float32</bdi>, <bdi>bfloat16</bdi>)
    "<bdi>device_type</bdi>": "<bdi>gpu</bdi>",       # <bdi>gpu</bdi> ولا <bdi>cpu</bdi>
    "<bdi>device_id</bdi>": 0,             # أي <bdi>GPU</bdi>
    "<bdi>attn_implementation</bdi>": "<bdi>sdpa</bdi>",  # نوع الـ <bdi>attention</bdi>
}

الإعدادات الأفضل تعتمد على الـ GPU ديالك والمشروع ديالك.

متى تستعمل Transformers backend؟ ومتى الـ Paddle الافتراضي؟

استعمل Transformers إيلا:

  • كتشتغل على RAG ولا Document AI مع Transformers بالفعل
  • الفريق ديالك عارف PyTorch و Transformers بشكل جيد
  • بغيتي تكامل سلس مع Hugging Face Hub
  • بغيتي نفس الطريقة ديال تحميل النماذج اللي كتستعملها فالمشاريع الثانية

استعمل Paddle (الافتراضي) إيلا:

  • الأولوية السرعة والأداء العالية (throughput)
  • ما عندكش مشاريع Transformers أخرى
  • بغيتي استقرار وتوثيق كامل

شنو كيعني هاد الشي ليك؟

هاد الإصدار يقدر يفيد بزاف المطورين المغاربة اللي كيشتغلو على مشاريع Document AI ولا RAG. بحال:

  • مستقلين كيبنيو chatbots لخدمة العملاء على الوثائق الداخلية
  • محامين بحالهم كيبنيو أداة تحليل سوابق قضائية من ملفات PDF
  • مهندسين معماريين كيبنيو نظام يقرا الرسوم التقنية بشكل آلي
  • شركات محاسبة كيبنيو أداة تستخرج البيانات من الفواتير والعقود

الفرق الآن: ماخاصكش تتعلم نظام جديد. إيلا عرفتي Transformers و PyTorch (اللي هي الأساس ديال أي مشروع AI جدي)، تقدر تستعمل PaddleOCR بنفس الطريقة. هادي توفير كبير فالوقت والجهد، خاصة إيلا كنتي كتخدم remote مع شركات أوروبية وبغيتي تقدم حل احترافي بسرعة.

مقالات ذات صلة