Lstm là gì

Giới thiệu về LSTM

Bài trước tôi đã ra mắt về recurrent neural network (RNN). RNN hoàn toàn có thể cách xử trí đọc tin dạng chuỗi (sequence/ time-series). Nlỗi nghỉ ngơi bài dự đoán hành vi vào video ngơi nghỉ bài trước, RNN hoàn toàn có thể sở hữu thông tin của frame (ảnh) từ bỏ state trước tới những state sau, rồi ở state cuối là việc phối kết hợp của tất cả các hình họa để tham gia đoán hành vi trong đoạn phim.Bạn đang xem: Lstm là gì


*

Các gọi biểu vật dụng trên: chúng ta nhìn thấy kí hiệu sigma, tanh ý là bước đấy dùng sigma, tanh activation function. Phxay nhân sống đó là element-wise multiplication, phxay cộng là cộng ma trận.

Bạn đang xem: Lstm là gì

f_t, i_t, o_t tương ứng với forget gate, input gate cùng output gate.

Forget gate: displaystyle f_t = sigma(U_f*x_t + W_f*h_t-1 + b_f)Input gate: displaystyle i_t = sigma(U_i*x_t + W_i*h_t-1 + b_i) Output đầu ra gate: displaystyle o_t = sigma(U_o*x_t + W_o*h_t-1 + b_o)

Nhận xét: 0 ; b_f, b_i, b_o là những hệ số bias; thông số W, U hệt như trong bài xích RNN.

displaystyle ildec_t = anh(U_c*x_t + W_c*h_t-1 + b_c) , công đoạn này hệt nhau nhỏng tính s_t vào RNN.

displaystyle c_t = f_t * c_t-1 + i_t * ildec_t, forget gate quyết định coi đề xuất rước từng nào từ cell state trước và input đầu vào gate đang đưa ra quyết định lấy bao nhiêu trường đoản cú input của state cùng hidden layer của layer trước.

Xem thêm: Nghĩa Của Từ Stance Là Gì - Nghĩa Của Từ Stance, Từ Stance Là Gì

Nhận xét: h_t, ildec_t khá giống cùng với RNN, phải model có short term memory. Trong khi ấy c_t giống như một băng chuyền ngơi nghỉ bên trên mô hình RNN vậy, lên tiếng nào yêu cầu đặc biệt với cần sử dụng nghỉ ngơi sau sẽ tiến hành gửi vào cùng cần sử dụng Lúc yêu cầu => có thể mang báo cáo tự đi xa=> long term memory. Do đó quy mô LSTM tất cả cả short term memory cùng long term memory.


*

cell state vào LSTM

LSTM kháng vanishing gradient


*

Ta cũng áp dụng thuật toán thù baông chồng propagation through time đến LSTM tương tự nhỏng RNN.

Thành phần bao gồm khiến là vanishing gradient trong RNN là displaystyle fracpartial s_t+1partial s_t = (1-s_t^2) * W , trong số đó s_t, W .

Xem thêm: Trò Chơi Bác Sĩ Thú Nhồi Bông, Giới Thiệu Game Bac Si Thu Nhoi Bong

Do đó LSTM được dùng thông dụng rộng RNN cho những toán thù đọc tin dạng chuỗi. Bài sau bản thân sẽ trình làng về áp dụng LSTM đến image captioning.


Chuyên mục: Công Nghệ