AI Improves PD-L1 Scoring Accuracy in Lung Cancer

AI Improves PD-L1 Scoring Accuracy in Lung Cancer

Understanding the Stakes: Lung Cancer and the PD-L1 Challenge

Lung cancer is the most diagnosed cancer worldwide, with nearly two million new cases reported each year. Among its types, non-small cell lung cancer (NSCLC) dominates in prevalence. For patients with advanced-stage NSCLC, survival rates remain dismally low—just 5%.

One of the critical tools in improving treatment outcomes is the use of immune checkpoint inhibitors (ICIs), particularly those targeting the PD-1/PD-L1 pathway. These therapies can re-activate the immune system’s ability to recognize and fight tumor cells. However, not all patients benefit equally. Identifying who will respond depends heavily on assessing a biomarker: PD-L1 expression.

This expression is measured using the tumor proportion score (TPS)—the percentage of tumor cells showing PD-L1 staining. The U.S. Food and Drug Administration (FDA) mandates TPS evaluation before prescribing therapies like pembrolizumab.

Yet, scoring PD-L1 is far from straightforward. The process is time-consuming, prone to human error, and highly variable between pathologists. “In advanced-stage cases, accurate assessment can be particularly challenging,” the authors note. These limitations are pushing researchers to seek automated, more consistent alternatives.


Automating PD-L1 Scoring: A New Framework Emerges

To tackle these challenges, researchers from the University of Dhaka, Qatar University, and Reference Medicine (USA) have developed a deep learning-based framework that automatically evaluates PD-L1 expression in NSCLC tissue samples.

The system works in three main stages:

  1. Classifying tumor patches in digital whole slide images (WSIs),

  2. Segmenting tumor areas into PD-L1 positive and negative zones,

  3. Detecting cell nuclei in each zone to calculate the TPS.

Unlike earlier studies that relied on area-based ratios or manual assessments, this model performs cell-level analysis—aligning with clinical standards and providing more precise results.


How It Works: Tumor Identification to TPS Calculation

The model begins by scanning digital slides of tissue samples, identifying patches that contain tumor cells. This task uses advanced classification models, including EfficientNet, Inception v3, and a Vision Transformer (ViT). Among these, ViT achieved the best tumor detection performance, with an F1 score of 97.54%.

Next, the system uses a modified DeepLabV3+ network to segment positive and negative tumor regions. This version includes Self-Organized Operational Neural Networks (Self-ONN), which replicate more complex neural behaviors. This improvement paid off: the model achieved a Dice Similarity Coefficient (DSC) of 83.47%, outperforming other architectures.

Finally, the model detects individual cell nuclei using StarDist, a tool designed for biological images. It classifies each nucleus based on its location—whether it’s in a PD-L1-positive or negative region—and calculates TPS accordingly.


Tested on Real Patient Samples

The framework was tested using 66 surgically resected NSCLC tissue samples provided by Reference Medicine in Phoenix, Arizona. All samples had been stained using the FDA-approved PD-L1 22C3 assay and digitized for analysis.

The results were impressive. The model achieved:

  • 93.94% overall accuracy in classifying PD-L1 expression into negative, low (1–49%), and high (≥50%) categories,

  • 100% accuracy in detecting high-expression cases, and

  • A correlation coefficient of 0.9635 with pathologist scores.

“The ability to handle slide-level staining heterogeneity and reduce inter-observer variability is a key advantage,” the authors explain.


Reducing Pathologist Workload, Increasing Confidence

Manual TPS evaluation is tedious and requires experienced judgment, especially when tumor regions are heterogeneous. The study highlights that automated tools like this can enhance consistency and reproducibility, especially in cases where pathologists might disagree.

The framework is particularly adept at handling common obstacles in PD-L1 scoring:

  • Artifact detection: Non-tumor patches or staining irregularities are filtered out early in the process.

  • Cell-level precision: Unlike area-based estimations, the system evaluates individual tumor cells.

  • Reduced subjectivity: By minimizing human error, the tool offers a more objective analysis.


Limitations and Future Directions

While the framework showed strong performance, the authors acknowledge areas for improvement. Low-expression cases (TPS 1–49%) were slightly less accurately classified. There were also challenges in detecting unusually shaped tumor cell nuclei.

Expanding the dataset to include more diverse samples and staining patterns could improve generalizability. Future versions may also integrate clinical or genomic data to further personalize predictions.

“There’s significant potential to extend this system to other cancer types and integrate it into routine clinical workflows,” the team writes.


A Step Toward Smarter Pathology

This study presents a practical and scalable solution to a known bottleneck in cancer immunotherapy. By automating PD-L1 scoring, this framework not only reduces the burden on pathologists but also improves the reliability of treatment decisions.

With further validation and integration, tools like this could soon become a regular part of digital pathology platforms, helping clinicians make faster and more informed choices in the fight against lung cancer.

 

The translation of the preceding English text in Arabic:

 

فهم الرهانات: سرطان الرئة وتحدي PD-L1

يُعد سرطان الرئة أكثر أنواع السرطان تشخيصًا في العالم، حيث يتم تسجيل ما يقرب من مليوني حالة جديدة كل عام. ومن بين أنواعه، يُعد سرطان الرئة ذو الخلايا غير الصغيرة (NSCLC) الأكثر شيوعًا. بالنسبة للمرضى في المراحل المتقدمة من NSCLC، تظل معدلات البقاء على قيد الحياة منخفضة للغاية — فقط 5%.

من الأدوات الأساسية لتحسين نتائج العلاج استخدام مثبطات نقاط التفتيش المناعية (ICIs)، وخاصة تلك التي تستهدف مسار PD-1/PD-L1. يمكن لهذه العلاجات إعادة تنشيط قدرة الجهاز المناعي على التعرف على الخلايا السرطانية ومهاجمتها. ومع ذلك، لا يستفيد جميع المرضى بنفس القدر. ويعتمد تحديد من سيستجيب للعلاج بشكل كبير على تقييم علامة حيوية: تعبير PD-L1.

يتم قياس هذا التعبير باستخدام “درجة نسبة الورم” (TPS) — وهي النسبة المئوية لخلايا الورم التي تُظهر تصبغ PD-L1. وتفرض إدارة الغذاء والدواء الأمريكية (FDA) تقييم TPS قبل وصف علاجات مثل بيمبروليزوماب.

ومع ذلك، فإن تصنيف PD-L1 ليس بالأمر السهل. فالإجراء يستغرق وقتًا طويلاً، وعرضة للأخطاء البشرية، ومتفاوت بدرجة كبيرة بين علماء الأمراض. “في الحالات المتقدمة، يمكن أن يكون التقييم الدقيق تحديًا خاصًا”، كما يلاحظ المؤلفون. وتدفع هذه القيود الباحثين إلى البحث عن بدائل مؤتمتة وأكثر اتساقًا.


أتمتة تقييم PD-L1: إطار عمل جديد يظهر

لمواجهة هذه التحديات، طوّر باحثون من جامعة دكا، وجامعة قطر، ومؤسسة “ريفيرنس ميديسن” (الولايات المتحدة الأمريكية) إطار عمل يعتمد على التعلم العميق لتقييم تعبير PD-L1 تلقائيًا في عينات الأنسجة المصابة بسرطان الرئة ذو الخلايا غير الصغيرة (NSCLC).

يعمل النظام من خلال ثلاث مراحل رئيسية:

  • تصنيف مناطق الورم في صور الشرائح الرقمية الكاملة (WSIs)،

  • تقسيم مناطق الورم إلى مناطق إيجابية وسلبية لـ PD-L1،

  • اكتشاف نوى الخلايا في كل منطقة لحساب درجة نسبة الورم (TPS).

وعلى عكس الدراسات السابقة التي اعتمدت على نسب المساحة أو التقييم اليدوي، يقوم هذا النموذج بتحليل على مستوى الخلية — متوافقًا مع المعايير السريرية ويقدم نتائج أكثر دقة.


كيف يعمل: من تحديد الورم إلى حساب درجة نسبة الورم (TPS)

يبدأ النموذج بفحص الشرائح الرقمية لعينات الأنسجة، حيث يحدد المناطق التي تحتوي على خلايا ورمية. تُستخدم في هذه المهمة نماذج تصنيف متقدمة، بما في ذلك EfficientNet وInception v3 ومحول الرؤية (Vision Transformer – ViT). من بين هذه النماذج، حقق ViT أفضل أداء في اكتشاف الأورام، حيث سجل درجة F1 بلغت 97.54%.

بعد ذلك، يستخدم النظام شبكة DeepLabV3+ معدلة لتقسيم مناطق الورم إلى مناطق إيجابية وسلبية لـ PD-L1. وتتضمن هذه النسخة شبكات عصبية تشغيلية ذاتية التنظيم (Self-ONN)، والتي تحاكي سلوكيات عصبية أكثر تعقيدًا. وقد أثمرت هذه التحسينات: حيث حقق النموذج معامل تشابه Dice (DSC) بنسبة 83.47%، متفوقًا على البنى المعمارية الأخرى.

أخيرًا، يكتشف النموذج نوى الخلايا الفردية باستخدام أداة StarDist، المصممة خصيصًا للصور البيولوجية. ويصنّف كل نواة استنادًا إلى موقعها — سواء كانت في منطقة إيجابية أو سلبية لـ PD-L1 — ثم يحسب درجة TPS بناءً على ذلك.


تم اختباره على عينات حقيقية من المرضى

تم اختبار إطار العمل باستخدام 66 عينة نسيجية تم استئصالها جراحيًا من مرضى سرطان الرئة ذو الخلايا غير الصغيرة (NSCLC)، وقد قُدمت هذه العينات من قِبل مؤسسة Reference Medicine في فينيكس، أريزونا. وتم تصبيغ جميع العينات باستخدام اختبار PD-L1 22C3 المعتمد من إدارة الغذاء والدواء الأمريكية (FDA)، ثم تم رقمنتها للتحليل.

وكانت النتائج مبهرة، حيث حقق النموذج:

  • دقة إجمالية بنسبة 93.94% في تصنيف تعبير PD-L1 إلى فئات سلبية، منخفضة (1–49%)، وعالية (≥50%)،

  • دقة بنسبة 100% في اكتشاف الحالات ذات التعبير العالي، و

  • معامل ارتباط مع تقييمات أطباء الأمراض بلغ 0.9635.

وأوضح المؤلفون: “القدرة على التعامل مع التفاوت في تصبيغ الشرائح وتقليل التباين بين المراقبين تُعد ميزة رئيسية”.


تقليل عبء عمل اختصاصيي الأمراض وزيادة الثقة

يُعد تقييم TPS يدويًا عملية مرهقة وتتطلب حُكمًا خبيرًا، خاصة عندما تكون مناطق الورم غير متجانسة. وتُبرز الدراسة أن الأدوات المؤتمتة مثل هذا الإطار يمكن أن تعزز الاتساق وقابلية التكرار، لا سيما في الحالات التي قد يختلف فيها اختصاصيو الأمراض.

ويُظهر إطار العمل كفاءة خاصة في التعامل مع العقبات الشائعة في تقييم PD-L1:

  • كشف الشوائب: يتم تصفية البقع غير الورمية أو الشذوذات في التصبيغ في وقت مبكر من العملية،

  • دقة على مستوى الخلية: على عكس التقديرات المبنية على المساحة، يقوم النظام بتقييم الخلايا الورمية الفردية،

  • تقليل الذاتية: من خلال تقليل الخطأ البشري، يوفر الأداة تحليلًا أكثر موضوعية.


القيود والتوجهات المستقبلية

على الرغم من الأداء القوي الذي أظهره إطار العمل، يعترف المؤلفون بوجود بعض الجوانب التي تحتاج إلى تحسين. فقد كانت دقة تصنيف الحالات ذات التعبير المنخفض (TPS بين 1–49%) أقل قليلاً. كما وُجدت تحديات في اكتشاف نوى الخلايا الورمية ذات الأشكال غير الاعتيادية.

إن توسيع مجموعة البيانات لتشمل عينات وأنماط تصبيغ أكثر تنوعًا قد يُحسن من قدرة النموذج على التعميم. وقد تدمج الإصدارات المستقبلية بيانات سريرية أو جينومية من أجل تخصيص التنبؤات بشكل أكبر.

ويكتب الفريق: “هناك إمكانات كبيرة لتوسيع هذا النظام ليشمل أنواعًا أخرى من السرطان ودمجه ضمن سير العمل السريري الروتيني”.


خطوة نحو علم أمراض أكثر ذكاءً

تُقدم هذه الدراسة حلاً عمليًا وقابلًا للتوسيع لعنق الزجاجة المعروف في مجال العلاج المناعي للسرطان. فمن خلال أتمتة تقييم PD-L1، لا يُقلل هذا الإطار العبء عن اختصاصيي الأمراض فحسب، بل يُحسن أيضًا من موثوقية قرارات العلاج.

ومع المزيد من التحقق والتكامل، يمكن أن تصبح أدوات كهذه جزءًا أساسيًا من منصات علم الأمراض الرقمية، مما يساعد الأطباء في اتخاذ قرارات أسرع وأكثر استنارة في معركتهم ضد سرطان الرئة.


Reference:

Saidul Kabir, Muhammad E. H. Chowdhury, Rusab Sarmun, Semir Vranić, Rafif Mahmood Al Saady, Inga Rose, Zoran Gatalica

A novel deep learning framework for automatic scoring of PD-L1 expression in non-small cell lung cancer.

Biomol Biomed [Internet]. 2025 Mar. 3 [cited 2025 Apr. 23];

Available from: https://www.bjbms.org/ojs/index.php/bjbms/article/view/12056


And don’t forget!

We invite submissions for our upcoming thematic issues, including:

More news: Blog

Editor: Merima Hadžić

Be the first to comment

Leave a Reply