Parte de la información se pierde en cada paso de tiempo debido a las transformaciones que experimentan los datos a medida que pasan por la RNN. Después de un tiempo, el estado de la RNN casi no contiene rastros de sus entradas iniciales.
Imagina que estás tratando de traducir una oración larga y cuando llegas al final de la oración, se olvida el principio de la oración. Se han desarrollado varios tipos de células con memoria de larga duración para combatir este problema.
Examinemos la celda LSTM, la más popular de las memorias duraderas;
LSTM fue propuesto por Sepp Hocreiter y Jürgen Schmidhuber en 1997 y ha sido desarrollado gradualmente con el tiempo por investigadores como Alex Graves, Hashim Sak, Wojciech Zaremba.
Si pensamos en la celda LSTM como una caja negra, se puede usar una celda básica, excepto que funciona bien, el entrenamiento converge más rápido y detecta dependencias a largo plazo en los datos.
Puede usar la capa LSTM en lugar de la capa SimpleRNN en Keras.
Alternativamente, puede usar la capa de uso general keras.layers.RNN con LSTMCell como argumento:
También te puede interesarLos pros y los contras de usar herramientas de escritura de IASin embargo, la capa LSTM usa una implementación optimizada cuando se ejecuta en la GPU, por lo que, en general, es preferible usar esta capa (RNN, como se le conoce, resulta útil cuando se crean celdas definidas por el usuario).
¿Cómo funciona la Célula LSTM?
Si no mira dentro de la caja, el LSTM parece una celda completamente ordinaria, excepto que su estado se divide en dos vectores h[post_relacionado id=»1582″]
También te puede interesarExploring NLP Arabic Question-to-Question Similarity with GPT-4