2023HW02: 深度学习调参实战记录 - MLP与RNN调优经验总结
基于李宏毅课程HW02的深度学习模型调参实战记录,包含MLP和RNN模型的完整调优过程、理论思考和最佳实践总结。 ...
基于李宏毅课程HW02的深度学习模型调参实战记录,包含MLP和RNN模型的完整调优过程、理论思考和最佳实践总结。 ...
Self-Attention 机制是现代深度学习的重要突破,它通过 Query-Key-Value 三元组计算,彻底解决了传统 RNN/LSTM 在处理序列数据时面临的并行计算瓶颈和长距离信息损失问题。本文将深入剖析其核心原理、多头注意力设计以及位置编码技术。 内容基于李宏毅老师机器学习课程 12,结合最新技术发展整理 ...
这篇博文介绍了循环神经网络 (RNN) 如何通过引入 " 记忆 “(隐藏状态)和参数共享来处理序列数据,并探讨了其面临的梯度消失/爆炸问题,最后引出了 LSTM 和 GRU 作为更优的解决方案。 ...
这篇博文通过两种不同的叙事角度,生动地解释了卷积神经网络(CNN)如何通过局部感受野、参数共享和池化这三大核心设计,来有效处理图像数据并解决传统全连接网络参数过多的问题。主要内容和细节多参考自 Hylee 的机器学习 2021 版本 1。 ...
这篇博文通过解释 Dropout 和 Batch Normalization 的核心原理、实现细节和主要作用,旨在帮助读者理解这两种在深度学习训练中常用的正则化与优化技术。 ...
本文是李宏毅机器学习2021系列课程的第四篇。在分类任务中,简单地把类别编号为 1、2、3 会暗含距离和顺序偏差。为避免这一问题,我们首先使用 one-hot 向量对离散标签做无序编码。随后,网络输出层通过 softmax 将 logits 映射为 0-1 之间且和为 1 的概率分布;真正的 one-hot 只是标签而非模型输出。为了衡量输出概率与真实标签的差距,交叉熵损失因其在“错误但自信”的区域梯度更大,相比均方误差(MSE)更易于优化。本文结合公式推导与误差面可视化,说明从编码、输出到损失函数的完整链条如何共同提升分类模型的训练效率与性能。 ...
本文是李宏毅机器学习 2021 课程系列的第三篇,汇总了三个重要视频的核心内容:梯度消失时的 Critical Point 分析、Batch 和 Momentum 训练技巧,以及自适应学习率方法。文章深入解析了训练过程中遇到的优化难题,特别是当 loss 停止下降时的真实原因分析,并提供了包括小批量训练、动量优化、AdaGrad、RMSProp 和 Adam 等实用解决方案。通过理论分析和实验证据,帮助读者理解现代深度学习优化器的设计原理和使用技巧。 ...
这篇博客的主要来源是 Hylee 机器学习课程的第二讲,重点介绍机器学习模型优化的通用指导原则。本文将系统性地讲解如何通过分析训练误差和测试误差,识别模型问题的根本原因,并提供相应的解决策略来提升模型性能。 ...
本篇记录了 Hylee 2023 年 HW01 回归任务的实验过程与调参心得,内容包括神经网络结构设计、特征变量选择、优化器与正则化方法的尝试,以及相关的学习笔记和思考,适合关注深度学习实战与模型调优的同学参考。 ...
这篇博文以“机器学习三步走 → 模型改进 → 深度网络 → 反向传播”主线,结合 YouTube 观影量示例,帮助完全零基础读者理解深度学习核心概念与训练流程。主体内容和具体细节多来自Hylee 2021 课程第一讲1 2。 ...