2023HW02: 深度学习调参实战记录 - MLP与RNN调优经验总结

基于李宏毅课程HW02的深度学习模型调参实战记录,包含MLP和RNN模型的完整调优过程、理论思考和最佳实践总结。 ...

2025-08-16 · (updated 2025-08-17) · 8 min · 3947 words · Zhengbo Wang

Self-Attention 机制:从 RNN/LSTM 到 Transformer 的关键突破

Self-Attention 机制是现代深度学习的重要突破,它通过 Query-Key-Value 三元组计算,彻底解决了传统 RNN/LSTM 在处理序列数据时面临的并行计算瓶颈和长距离信息损失问题。本文将深入剖析其核心原理、多头注意力设计以及位置编码技术。 内容基于李宏毅老师机器学习课程 12,结合最新技术发展整理 ...

2025-08-15 · 5 min · 2340 words · Zhengbo Wang

从RNN到LSTM:深入理解循环神经网络的“记忆”与“遗忘”

这篇博文介绍了循环神经网络 (RNN) 如何通过引入 " 记忆 “(隐藏状态)和参数共享来处理序列数据,并探讨了其面临的梯度消失/爆炸问题,最后引出了 LSTM 和 GRU 作为更优的解决方案。 ...

2025-08-13 · 7 min · 3298 words · Zhengbo Wang

深度学习优化技巧:Dropout 与 Batch Normalization

这篇博文通过解释 Dropout 和 Batch Normalization 的核心原理、实现细节和主要作用,旨在帮助读者理解这两种在深度学习训练中常用的正则化与优化技术。 ...

2025-08-03 · (updated 2025-08-04) · 5 min · 2279 words · Zhengbo Wang

深度学习入门:从机器学习三步走到神经网络与反向传播算法详解

这篇博文以“机器学习三步走 → 模型改进 → 深度网络 → 反向传播”主线,结合 YouTube 观影量示例,帮助完全零基础读者理解深度学习核心概念与训练流程。主体内容和具体细节多来自Hylee 2021 课程第一讲1 2。 ...

2025-04-14 · (updated 2025-08-15) · 8 min · 3851 words · Luke