Este estudio de caso sobre la generación de texto demuestra aún más la ventaja de BioGPT en la literatura biomédica para generar descripciones fluidas de términos biomédicos.
Abstracto:
Los modelos de lenguaje pre-entrenados han atraído una atención creciente en el dominio biomédico, inspirados por su gran éxito en el dominio general del lenguaje natural. Entre las dos ramas principales de modelos de lenguaje pre-entrenados en el dominio general del lenguaje, es decir, BERT (y sus variantes) y GPT (y sus variantes), la primera ha sido ampliamente estudiada en el dominio biomédico, como BioBERT y PubMedBERT. Si bien han logrado un gran éxito en una variedad de tareas biomédicas posteriores discriminatorias, la falta de capacidad de generación limita su alcance de aplicación. En este trabajo, proponemos BioGPT, un modelo de lenguaje Transformer generativo específico de dominio entrenado previamente en literatura biomédica a gran escala. Evaluamos BioGPT en seis tareas biomédicas de procesamiento del lenguaje natural y demostrar que nuestro modelo supera a los modelos anteriores en la mayoría de las tareas. Especialmente, obtenemos Puntuación F1 del 44,98 %, 38,42 % y 40,76 % en tareas de extracción de relaciones de extremo a extremo BC5CDR, KD-DTI y DDI, respectivamente, y precisión del 78,2 % en PubMedQA, creando un nuevo registro. Nuestro estudio de caso sobre la generación de texto demuestra aún más la ventaja de BioGPT en la literatura biomédica para generar descripciones fluidas de términos biomédicos.
BioGPT es un LLM capacitado desde cero en 15 millones de resúmenes de PubMed. Este modelo se utilizó para seis tareas biomédicas de PNL.
BERT El modelo de lenguaje contextualizado basado en transformador bidireccional se entrenó utilizando Wikipedia y BooksCorpus. Se entrenó como tareas de autosupervisión: modelo de lenguaje enmascarado (MLM) en el que una palabra aleatoria se reemplaza por un token especial y predicción de la siguiente oración (NSP) donde se deben predecir 2 oraciones si la segunda es probable dada la primera .
GPT El transformador preentrenado generativo se entrena en un corpus a gran escala de Internet. GPT-2 y GPT-3 son los últimos modelos entre los GPT. Tiene un rendimiento notable en la traducción, el resumen, la clasificación y el ajuste fino a través del diseño de avisos apropiados.
Los modelos entrenados en un lenguaje general como BERT y GPT se capacitan/afinan aún más utilizando literatura biomédica como resúmenes de PubMed y artículos de texto completo de PubMed Central y/o notas clínicas de datos como MIMIC-III/IV. Mantienen el vocabulario de BERT, que es significativamente diferente al lenguaje específico del dominio. Para evitar este problema, se podría entrenar previamente un modelo de lenguaje en un corpus de dominio biomédico. Se puede agregar texto adicional fuera del dominio para permitir que el modelo aprenda mejor el idioma.
PubMedBERT se entrenó desde cero en 14M PubMed Abstracts. ELECTRA recibió capacitación sobre 28 millones de artefactos de datos biomédicos. DARE intentó entrenar previamente el modelo usando solo 0,5 millones de resúmenes de PubMed con un enfoque en usar el modelo solo para el aumento de datos para tareas de abstracción de relaciones.
Este documento se centra en 3 tipos de tareas.
Extracción de relaciones: (End-to-End), que formula la tarea como una tarea de generación de texto que toma solo el texto como entrada y genera los tripletes relacionales de forma de extremo a extremo sin anotaciones intermedias adicionales.
Respuesta a la pregunta: Los métodos típicos predicen un lapso en el contexto de origen como texto de respuesta o predicen una etiqueta (por ejemplo, sí o no) para tareas más simples con respuestas categóricas predefinidas. Los modelos generativos generan las palabras de la etiqueta en lugar de predecir a partir de un conjunto predefinido de resultados (por ejemplo, sí o no).
Clasificación de documentos: este método se usa estrictamente para clasificar documentos en categorías de etiquetas predefinidas. Los modelos generativos generan las palabras de la etiqueta en lugar de predecir a partir de un conjunto predefinido de resultados (por ejemplo, sí o no).
Conjunto de datos: Todos los resúmenes publicados antes de 2021 en https://pubmed.ncbi.nlm.nih.gov. Solo el título y el texto del resumen se utilizaron para la capacitación.
Vocabulario: utilizando fastBPE (codificación de pares de bytes), el vocabulario se aprendió del texto recopilado. El tamaño del vocabulario fue de 42.384 palabras.
Modelo: Para este entrenamiento se utilizó la misma arquitectura de GPT-2. El componente central de Transformer, así como de nuestro BioGPT, es la atención de múltiples cabezas. Dada la entrada, se aplican tres transformaciones lineales para producir la consulta qla clave k, y el valor Vy luego la salida se calcula de la siguiente manera:
donde (1) h es el número de cabezas; (2) q, k, y V se dividen por igual en Qi , A, y Vi a lo largo de la dimensión característica, i ∈ {1, 2, · · · , h}; (3) Concat denota la concatenación de todas las entradas como un gran tensor a lo largo de la dimensión de la característica; (4) W es el parámetro para la transformación afín. La salida de la capa de atención de varios cabezales luego se alimenta a una capa de avance para construir una capa de Transformador (o bloque de Transformador). En la práctica, adoptamos GPT-2medium como red troncal, que tiene 24 capas, 1024 tamaños ocultos y 16 cabezales de atención, lo que da como resultado 355METRO parámetros en total, y nuestro BioGPT tiene 347METRO parámetros (la diferencia solo proviene del diferente tamaño de incrustación y el tamaño de proyección de salida causado por el diferente tamaño del vocabulario).
Criterios de formación: BioGPT se entrena a través de la tarea de modelado de lenguaje estándar como en [5, 6]. Sea D = {xi}i denota la colección de secuencias, y secuencia xi se compone de en fichas, es decir xi = (s1 , s2 , · · · , sni ). El objetivo de entrenamiento es minimizar el log-verosimilitud negativo:
BC5CDR: Extracción de relaciones de extremo a extremo. Uso de datos BC5CDR que contienen documentos 500/500/500 para capacitación/validación.pruebas. Es un conjunto de datos para tareas de extracción de relaciones entre sustancias químicas y enfermedades. Los medios BioGPT y GPT-2 se ajustaron utilizando estos datos durante 100 épocas con una tasa de aprendizaje máxima de 10^-5 y 100 etapas de calentamiento.
KD-DTI: Utilizando datos KD-DTI, que son datos de interacción entre el fármaco y el objetivo, que consisten en 12 000/1000/1300 documentos como el conjunto de tren/validación/prueba. Los medios BioGPT y GPT-2 se ajustaron utilizando estos datos durante 30 épocas con una tasa de aprendizaje máxima de 10^-5 y 1000 etapas de calentamiento.
DDI El corpus de extracción de 2013 es un conjunto de datos para tareas de interacción entre fármacos. Consta de 792 textos seleccionados de la base de datos de DrugBank y otros 233 resúmenes de Medline. Contiene una división de entrenamiento/validación/prueba de 664/50/191 archivos. Los medios BioGPT y GPT-2 se ajustaron utilizando estos datos durante 100 épocas con una tasa de aprendizaje máxima de 10^-4 y 500 etapas de calentamiento.
Respuesta a preguntas usando PubmedQA datos que contienen tren/validación/prueba original divididos con 450, 50 y 500, respectivamente. Los medios BioGPT y GPT-2 se ajustaron utilizando estos datos durante 100 épocas con una tasa de aprendizaje máxima de 10^-5 y 100 etapas de calentamiento.
Clasificación de documentos usando HoC (el corpus Hallmarks of Cancers), que consta de 1580 resúmenes de PubMed anotados manualmente en el nivel de oración por expertos con diez sellos distintivos actualmente conocidos del cáncer. Los medios BioGPT y GPT-2 se ajustaron utilizando estos datos durante 20 000 épocas con una tasa de aprendizaje máxima de 10^-5 y 1000 etapas de calentamiento.
Tareas de generación de texto
No existe una forma real de comparar la precisión de estas tareas, pero se pueden apreciar las diferencias al comparar la salida de GPT-2 con la salida de BioGPT.
Formato de secuencia objetivo
En este estudio, se eligieron trillizos como elección de la longitud de las secuencias. La relación entre los trillizos era una de las siguientes:
Según los autores, BioGPT logra y supera los resultados de SOTA en tres tareas de extracción de relaciones de extremo a extremo y una tarea de respuesta a preguntas. También demuestra una mejor capacidad de generación de texto biomédico en comparación con GPT-2 en la tarea de generación de texto. Será interesante ver cómo se aplica este modelo a una mayor escala de datos biomédicos y más variedad de tareas posteriores.