秋天是倒放的春天963 个人主页

@2302_80236633

秋天是倒放的春天963

2024-02-01 10:29:52 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

为什么需要非线性激活函数

非线性激活函数是神经网络中不可或缺的组成部分，它们通过引入非线性因素，解决了梯度消失和梯度爆炸问题，引入非零中心化，控制神经元的输出范围，引入稀疏性，加速收敛，并增强模型的表达能力。这些作用使得神经网络能够学习和模拟复杂的非线性关系，从而在各种任务中表现出色。

#分类 #机器学习 #人工智能 +4

优化算法深度剖析：梯度下降、动量方法与自适应学习率

通过计算损失函数对参数的梯度，沿着梯度下降的方向更新模型参数，直到找到最小值或足够接近最小值的解。其核心思想是基于损失函数的梯度方向来调整参数，以最小化损失。梯度下降的核心思想是基于损失函数的梯度方向来调整参数。具体来说，它通过计算损失函数对参数的梯度，沿着梯度下降的方向更新模型参数，直到找到最小值或足够接近最小值的解。其更新公式为：θt+1=θt−η∇J(θt)\theta_{t+1} = \t

#算法 #学习 #人工智能 +4

仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播

【代码】仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播。

#pytorch #transformer #人工智能 +4

仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播

仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播话不多说，直接上代码一. 的结构1.的结构T

#pytorch #transformer #人工智能 +3

从Swish到SwiGLU：激活函数的进化与革命，qwen2.5应用的激活函数

Swish 激活函数是一种平滑的、非单调的激活函数，由 Google Brain 团队在 2017 年提出。它结合了 ReLU 的非线性特性与 Sigmoid 函数的平滑特性，旨在解决 ReLU 在某些情况下的局限性，例如梯度消失和“死亡神经元”问题。Swishxx⋅σβxSwishxx⋅σβxσx\sigma(x)σx是 Sigmoid 函数，定义为σx11e−xσx1e−x1。β\betaβ

#人工智能 #算法 #神经网络 +4

仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播

【代码】仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播。

#pytorch #transformer #人工智能 +4

强化学习基础一：强化学习新手必看！一文读懂基础概念与关键要点

强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）中最大化它能获得的奖励。如图 1所示，强化学习由两部分组成：智能体和环境。在强化学习过程中，智能体与环境一直在交互。智能体在环境中获取某个状态后，它会利用该状态输出一个动作（action），这个动作也称为决策（decision）。然后这个动作会在环境

#人工智能 #深度学习 #机器学习 +4

仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播

往期文章：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播1.编码器模块的实现这段代码实现了一个Transformer编码器模块（Transformer Block），它是Transform

#pytorch #transformer #人工智能 +4

什么是COT：DeepSeek模型推理的“幕后英雄”，史上最详细易懂教程

CoT 方法优点缺点- 简单高效，仅需添加提示词- 广泛适用，快速推理- 无需额外训练- 依赖提示词设计质量- 可能生成误导性推理路径- 适用范围有限- 提供少量示例，增强推理能力- 提升模型对复杂问题的理解- 更好的泛化能力- 需要人工设计示例- 示例选择影响推理效果- 计算资源需求较高Auto-CoT- 自动化生成推理链，减少人工干预- 灵活适应多种任务- 提升推理效率- 聚类质量影响推理多样

#人工智能 #机器学习 #python +4

从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。

是一种用于深度学习的，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的，避免了传统归一化方法中均值和方差的计算。

#深度学习 #人工智能 #transformer +4

共 33 条

请选择