Casos de uso del mecanismo de atención parte 2 (aprendizaje automático)

Monoprofundo Mukherjee
  • Segmentación de nódulos pulmonares y predicción de regiones de baja confianza con mecanismo de atención consciente de la incertidumbre (arXiv)
  • Autor: Han Yang, Qiuli Wang, Yue Zhang, Zhulin An, Chen Liu, Xiaohong Zhang, S. Kevin Zhou

    Resumen: Los radiólogos tienen diferentes entrenamientos y experiencias clínicas, lo que puede resultar en varias anotaciones de segmentación para los nódulos pulmonares, lo que genera incertidumbre en la segmentación. Los métodos convencionales generalmente seleccionan una sola anotación como objetivo de aprendizaje o intentan aprender un espacio latente de varias anotaciones, pero estos enfoques desperdician la valiosa información de consenso o desacuerdo arraigada en las múltiples anotaciones. En este documento, proponemos un mecanismo de atención consciente de la incertidumbre (UAAM) que utiliza el consenso y los desacuerdos entre múltiples anotaciones para facilitar una mejor segmentación. Para lograr esto, presentamos la máscara de confianza múltiple (MCM), que es una combinación de una máscara de confianza baja (LC) y una máscara de confianza alta (HC). La máscara LC indica regiones con una confianza de segmentación baja, lo que puede causar diferentes opciones de segmentación entre los radiólogos. Siguiendo la UAAM, diseñamos una red de segmentación de guía de incertidumbre (UGS-Net), que contiene tres módulos: un módulo de extracción de características que captura una característica general de un nódulo pulmonar, un módulo consciente de la incertidumbre que produce tres características para las anotaciones. conjunto de unión, intersección y anotación, y un módulo de restricción de unión e intersección que usa distancias entre las tres características para equilibrar las predicciones de segmentación final, máscara LC y máscara HC. Para demostrar completamente el rendimiento de nuestro método, proponemos una validación de nódulos complejos en LIDC-IDRI, que prueba el rendimiento de segmentación de UGS-Net en nódulos pulmonares que son difíciles de segmentar con U-Net. Los resultados experimentales demuestran que nuestro método puede mejorar significativamente el rendimiento de la segmentación en nódulos con una segmentación deficiente por parte de U-Net.

    2. Estudio comparativo de Transformador y Red LSTM con mecanismo de atención en Image Captioning (arXiv)

    Autor: Pranav Dandwate, Chaitanya Shahane, Vandana Jagtap, Shridevi C. Karande

    Resumen : : En un mundo globalizado en la época actual de inteligencia generativa, la mayoría de las tareas del trabajo manual se automatizan con mayor eficiencia. Esto puede ayudar a las empresas a ahorrar tiempo y dinero. Un componente crucial de la inteligencia generativa es la integración de la visión y el lenguaje. En consecuencia, los subtítulos de imágenes se convierten en un área de investigación intrigante. Ha habido múltiples intentos por parte de los investigadores para resolver este problema con diferentes arquitecturas de aprendizaje profundo, aunque la precisión ha aumentado, pero los resultados aún no están a la altura. Este estudio se centra en la comparación de Transformer y LSTM con el modelo de bloque de atención en el conjunto de datos MS-COCO, que es un conjunto de datos estándar para subtítulos de imágenes. Para ambos modelos, hemos utilizado un codificador CNN Inception-V3 preentrenado para la extracción de características de las imágenes. La puntuación del suplente de la evaluación bilingüe (BLEU) se utiliza para comprobar la precisión de los subtítulos generados por ambos modelos. Junto con el transformador y LSTM con modelos de bloque de atención, el modelo de difusión CLIP, el modelo de transformador M2 y el modelo de atención lineal X se han discutido con precisión de vanguardia.

    [post_relacionado id=»1714″]


    Comentarios

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *