相关文章
LLaMA-Factory|微调大语言模型初探索(3),qlora微调deepseek记录
前言 上篇文章记录了使用lora微调llama-1b,微调成功,但是微调llama-8b显存爆炸,这次尝试使用qlora来尝试微调参数体量更大的大语言模型,看看64G显存的极限在哪里。
1.Why QLora? QLoRA 在模型加载阶段通过 4-bit 量化大幅减少了模型权重的显存占用。QLoRA 通过 反量化到 …
建站知识
2025/2/23 19:27:48
PyTorch v2.6 Overview
PyTorch v2.6 Overview Python APILibraries PyTorch 是一个优化的张量库,用于使用 GPU 和 CPU 进行深度学习。
Python API
序号API名称解释1torchPyTorch 核心库(中文:火炬)PyTorch 的核心库,提供了张量操作、自动求导等基础功能。2torch.nn神经网络模…
建站知识
2025/2/27 4:48:25
Python 入门教程(2)搭建环境 | 2.3、VSCode配置Python开发环境
文章目录 一、VSCode配置Python开发环境1、软件安装2、安装Python插件3、配置Python环境4、包管理5、调试程序 前言 Visual Studio Code(简称VSCode)以其强大的功能和灵活的扩展性,成为了许多开发者的首选。本文将详细介绍如何在VSCode中配置…
建站知识
2025/2/23 19:25:24
Docker下的Elastic search
一、安装
(一)Elastic search
1.创建配置文件 :我是在win系统中,创建文件【G:\dockermount\es\elasticsearch.yml】
添加【http.host: 0.0.0.0】
2. 拉取镜像:docker pull elasticsearch
3. 创建容器(注意我挂载的…
建站知识
2025/2/23 19:24:12
清华大学Deepseek教程学习总结(四)
DeepSeek通过强化学习驱动的推理架构和开源策略,正在重塑AI产业格局。其在成本效益(训练成本降低98%)、垂直领域应用(医疗诊断准确率93.6%)和技术普惠(API价格仅为行业3%)方面的突破,…
建站知识
2025/2/23 19:23:00
在 JMeter 中实现多用户并发登录及操作
在 JMeter 中实现多用户并发登录及操作,通常需要以下步骤: 1. 创建测试计划 打开 JMeter。右键点击“Test Plan”,选择“Add > Threads (Users) > Thread Group”。 : 设置并发用户数。 : 设置用户启动的时间间隔。 : 设置循环次数&…
建站知识
2025/2/23 19:21:51
【算法与数据结构】单调队列
目录 单调队列
使用单调队列维护滑动窗口
具体过程:
代码实现:
复杂度分析:
使用单调队列优化动态规划
例题 单调队列
单调队列(deque)是一种特殊的队列,队列中的元素始终按严格递增或者递减排列。这样就可以保证队头元素…
建站知识
2025/2/23 19:20:48
Java-如何将其他地方拉取的jar包导入本地maven环境
背景
公司的一个老旧二开项目,原项目维护方不合作了,提供的项目源码提供给到公司。项目中用到了一些原维护方内部的jar包,导致二开时依赖的这些部分全部报错。虽然在项目中直接导入此jar包可以解决报红报错问题,但是在使用maven打…
建站知识
2025/2/23 19:19:44