logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

第五讲 设计和感应器参数计算(下)

第五讲 设计和感应器参数计算(下)

文章图片
自学资料 - LoRA - 低秩微调技术

理论:预训练大型语言模型在适应新任务时具有较低的“内在维度” , 所以当对于一个预训练模型来说,原先的参数是有非常多的冗余的,因此我们可以利用低维空间(也就是降维)去表示目标参数和原先参数之间的距离。因此ΔW是相对W来说维度非常小的,减少了非常多的参数量。这平衡了预训练模型的知识和新的特定于任务的适应——默认情况下,被初始化为小的随机权重,但WB被初始化为 0,因此训练开始时ΔW = WAxWB

文章图片
#人工智能#AIGC#python
手撕Diffusion系列 - 第四期 - Diffusion前向扩散

手撕Diffusion系列 - 第四期 - Diffusion前向扩散

文章图片
#算法#面试#人工智能 +2
手撕VQVAE(向量量化变分自编码器) -- Day2 -- VAVAE.py

手撕VQVAE(向量量化变分自编码器) -- Day2 -- VAVAE.py

文章图片
#php#开发语言#深度学习 +3
手撕Diffusion系列 - 第七期 - Diffusion训练

手撕Diffusion系列 - 第七期 - Diffusion训练

文章图片
#算法#人工智能#深度学习 +2
手撕CLIP -- Day1 -- 基础原理

手撕CLIP – Day1 – 基础原理

文章图片
#网络#算法#人工智能 +1
    共 16 条
  • 1
  • 2
  • 请选择
OSZAR »