- 博客(8867)
- 资源 (18)
- 收藏
- 关注
原创 快速上手 WSL: 基本命令使用示例指南
你可以在 PowerShell 或 CMD 中直接运行 WSL 命令,无需先进入 WSL 环境。这是所有操作的第一步。WSL 中的网络应用(如 Web 服务器)可以直接被 Windows 访问。(你的发行版名称),就可以像访问网络驱动器一样访问 Linux 文件系统。你可以将 WSL 系统导出为一个文件,以便备份或迁移到另一台电脑。WSL 的一个强大之处在于它可以无缝访问 Windows 文件。使用发行版自带的包管理器(如 Ubuntu 的。所有你熟悉的 Linux 命令都可以直接使用。
2025-08-31 13:23:05
88
原创 RocketMQ生产者组Producer Group介绍
生产者组(Producer Group) 是 RocketMQ 中一个用于逻辑分组的概念,其最核心的价值在于支持事务消息的回查机制,同时也提供了生产端的负载均衡和高可用能力。生产者组(Producer Group) 是一类行为相似的生产者的逻辑集合。· 回查的凭据:Broker 在发起回查时,并不知道具体是哪个生产者实例发送了那条半消息(因为生产者的实例可能很多,且会上下线)。在生产环境中,可以通过生产者组的名称来监控和追踪一组生产者的发送状态、TPS、延迟等 metrics,便于进行统一的运维管理。
2025-08-30 23:12:53
344
1
原创 PyTorch深度学习框架介绍
PyTorch 是一个开源的机器学习库,广泛应用于深度学习领域。它由 Facebook 的人工智能研究团队(FAIR, Facebook AI Research)于 2016 年首次发布,现已成为最流行和最具影响力的深度学习框架之一。
2025-08-30 23:04:11
664
原创 MySQL MVCC的核心机制简介(InnoDB引擎)
隐藏字段DB_TRX_ID(6字节):记录最后一次插入或更新该行数据的事务ID。回滚指针,指向该行数据在Undo Log中的上一个历史版本。DB_ROW_ID(6字节):行标识(如果表没有主键,InnoDB会自动生成一个隐藏主键)。Undo Log(回滚日志):存储数据被修改前的旧版本。当一行数据被更新时,旧版本的数据会被拷贝到Undo Log中,并用指向它。这些Undo Log通过回滚指针串联成一个版本链。Read View(读视图):事务在执行快照读(普通的SELECT。
2025-08-30 11:58:51
577
原创 vSphere ESXi 宿主机 GPU 直通实现方案
特性GPU 直通 (Pass-through)vSGA (已淘汰)资源共享否(独占式)是是性能最佳(接近原生)优秀(有轻微开销)差兼容性最佳(使用标准驱动)良好(需特定驱动)差硬件要求几乎所有 PCIe GPU仅限 NVIDIA 企业级vGPU卡无特殊要求成本仅硬件成本硬件 + 高昂的软件许可低主要场景高性能图形工作站、AI训练VDI、多用户共享(不推荐)给您的最终建议:如果你的目标是让一个虚拟机独占整个GPU以获得最佳性能。
2025-08-29 22:37:35
426
原创 华硕AMD主板开启VT的步骤
开机 - F2 -F7 - Advanced - CPU Configuration - SVM Mode 设置为 Enabled。
2025-08-29 13:50:28
103
原创 Windows 10 离线安装 WSL2 Ubuntu 22.04.5 LTS 简明教程
通过离线安装方式,可有效规避网络或其他问题引起的错误(如。
2025-08-28 22:16:33
935
1
原创 nvidia-smi Processes 输出信息解释(当前 GPU 上的活动进程及其资源使用情况)
Xorg 进程(PID: 20511)是一个图形进程,占用少量显存(4MiB),通常用于显示服务器。bge-reranker-v2-m3-0 模型(PID: 629680)和bge-large-zh-v1.5-0 模型(PID: 630429)是两个计算进程,分别占用了 1724MiB 和 1258MiB 的显存,这表明它们正在进行较为复杂的计算任务,可能是深度学习或类似的高负载计算。这些信息有助于理解当前 GPU 上的活动进程及其资源使用情况,便于进行资源管理和性能优化。
2025-08-27 16:15:45
628
1
原创 Linux centos7 /tmp 分区太小解决办法及修改 MySQL 的临时目录 tmpdir
立即解决:首先采用方案二(符号链接)或清理磁盘空间,让当前的删除操作能继续完成。长期规划:完成后,立即实施方案一(修改tmpdir,为以后的操作做好准备。最佳实践:对于任何大批量的数据操作(DELETE / UPDATE / INSERT),都使用方案三(分批处理)。这是最重要的数据库优化习惯,能极大避免此类问题并提升数据库稳定性。在执行任何重要操作前,强烈建议先对数据库进行备份!
2025-08-27 16:12:39
822
原创 Windows远程桌面连接 Ubuntu 的途径以及 RDP 和 VNC 的对比
对于绝大多数从 Windows 连接 Ubuntu 的用户,强烈推荐使用 RDP (xrdp)。理由:它提供了最好的性能、最丰富的功能和最简单的设置流程,并且与 Windows 自带的工具完美契合,体验非常接近原生。在以下特定情况下,可以考虑 VNC需要连接各种稀奇古怪的操作系统(如旧版 Mac、BSD 等),VNC 的通用性是最大优势。只需要非常轻量级的临时远程访问,并且不介意手动配置和潜在的安全风险。在某些嵌入式或工业环境中,VNC 是唯一可用的方案。
2025-08-26 21:03:36
642
原创 Dify, Coze, RAGFlow, FastGPT 介绍与对比 (企业级知识库RAG场景)
定位:一个统一的LLM应用开发与运维平台。它的目标不仅是RAG,而是覆盖各种基于LLM的应用类型,如Agent、文本生成等。核心功能可视化编排:通过界面拖拽构建基于LLM的 workflows,包括RAG流程。RAG引擎:内置了文本处理、向量化(支持多种模型)、检索(支持多种向量数据库)等全套功能。应用管理:可以快速创建Web App并分享给他人使用,内置了API管理和监控功能。模型支持:支持多种主流模型(OpenAI, Anthropic, 国内模型如通义千问、文心一言等)和部署方式。特点。
2025-08-25 18:18:49
768
原创 业界最流行和主流的5种RAG企业级知识库解决方案
方案名称核心特点优势适用场景灵活通用,社区标杆组件可插拔,生态丰富,学习资源多从原型到生产的各种项目,通用性最强LlamaIndex数据接入专家,索引高效数据连接和索引构建能力强,查询高效数据源复杂,文档量大,注重索引性能企业级一站式服务高可用、安全、混合搜索强大,与MS生态无缝集成大型企业,微软技术栈,生产环境Haystack生产级问答框架端到端,生产就绪,监控评估工具完善构建复杂、高性能的问答系统超大规模向量检索性能极致,可扩展性极高,专为海量向量设计。
2025-08-25 18:16:07
602
原创 5090D显卡使用xinference的问题:
版本,但是下载所有reranker模型,全部错误:Server error: 400 - [address=0.0.0.0:60419, pid=78] Model jina-reranker-v2 cannot be run on engine .5090D显卡使用xinference报错,不支持这块显卡。
2025-08-25 17:15:10
124
原创 vllm 部署及启动模型 Deepseek R1、Embedding、Reranker、Qwen3 并在 dify 中集成使用
vllm 同时跑多个模型资源调度可能会出现问题,看到网上有帖子说vgpu的方式可解决,待研究~
2025-08-25 16:05:08
347
原创 使用 Xinference 运行嵌入模型报错解决办法:使用非vLLM模型引擎如 sentence_transformers
这通常表明 PyTorch 或相关框架尝试在 GPU 上执行操作时,无法找到与当前 GPU 架构兼容的编译内核。此问题可能出现在 Xinference 启动模型服务或执行推理过程中,尤其是在使用 GPU 加速时。以下是可能的原因与对应的解决方法。
2025-08-25 10:40:15
991
原创 pip 安装 vLLM 最新每日构建版本
对于大多数用户,我推荐使用方法一# 在虚拟环境中这是获取 vLLM 最新每日构建版本最可靠、最直接的方法。
2025-08-23 20:04:48
846
原创 docker save 镜像时进行gzip压缩
方法命令优点缺点推荐度管道 + gzip速度快,通用性好,节省磁盘空间压缩比不是最高管道 + pigz多线程,比gzip快需要额外安装pigz管道 + xz压缩比最高,文件最小速度非常慢,耗CPU先save后压缩可保留中间tar文件耗磁盘空间,速度慢⭐(不推荐)给你的建议:日常使用:直接采用 docker save | gzip,这是最均衡的选择。传输给他人或上传:如果镜像非常大,并且你不介意等待,使用 docker save | xz来获得最小的文件。绝对要避免:直接使用。
2025-08-23 19:40:13
284
原创 使用 gdisk 进行 MBR 到 GPT 的转换通常不会导致已有数据丢失
确认操作的是正确的磁盘 (/dev/sdb使用的是gdisk的转换功能 (r->g确保过程不会中断(供电稳定)并且已经备份了关键数据那么,使用进行 MBR 到 GPT 的转换是安全的,不会丢失分区内的数据。反之,如果您使用parted的命令,它会直接清空整个分区表,那就会导致数据全部丢失。这就是为什么gdisk是完成此任务的首选推荐工具。
2025-08-23 19:26:57
296
1
原创 更新torch torchvision torchaudio版本以解决xinference不支持 NVIDIA 5090D显卡
原因见:https://github.com/xorbitsai/inference/issues/3866。确认 GPU 是否能被 PyTorch 识别,有类似输出就大功告成啦。安装好之后可以试试是否安装成功。
2025-08-23 19:10:16
139
原创 LLM多GPU的分布式推理框架: Xinference和vLLM
工具/框架核心优势分布式集成方式易用性适合场景Xinference开箱即用的分布式,一体化解决方案原生主从架构,自动调度高快速搭建私有模型集群,兼顾开发和生产vLLM极致性能和高吞吐量需手动部署多个实例 + Nginx 负载均衡中生产环境高并发推理的首选基石TGIHuggingFace 生态首选需手动部署多个实例 + Nginx 负载均衡中部署 Hugging Face 家族的模型NVIDIA 硬件极致优化原生支持多机多卡模型并行低对延迟和效率有极端要求的NVIDIA环境。
2025-08-23 15:59:24
820
原创 LM Studio 不支持多GPU的解决方案
需求级别推荐方案使用工具个人使用,单块GPU直接使用LM Studio桌面应用LM Studio单机多卡使用底层库的命令行工具,尝试张量并行llama.cpp的server多机多卡集群(生产环境)部署多个API实例 + 负载均衡器vLLM(高性能推理) +Nginx(负载均衡) +(应用编排)给您的实践建议:如果您是个人用户/小团队:优先考虑升级单机硬件(如使用单块24GB的RTX 4090或RTX 3090,或等待新一代大显存卡)。LM Studio的单卡体验是最简单稳定的。
2025-08-23 15:55:58
824
原创 LM Studio 的使用以及如何将其与 Dify / RAGFlow 集成以实现知识库(RAG)功能
通过这种方式,你成功地将本地化的隐私保护强大的知识管理(Dify/RAGFlow 的知识库)和先进的检索增强生成技术(RAG)结合了起来。你可以在完全不泄露任何数据的前提下,构建一个能够“阅读”和理解你私有文档的智能助手,非常适合企业内网、敏感数据处理或个人隐私要求高的场景。
2025-08-23 15:53:53
886
原创 在 Win Docker Desktop 中配置以使用宿主机的 GPU 资源
你的需求关键技术示例命令CUDA 计算、机器学习 (NVIDIA GPU)安装,使用--gpus all图形加速、DirectX (Intel/AMD GPU)使用--device挂载/dev/dxg并挂载 WSL 库对于绝大多数AI开发者来说,情况一(NVIDIA GPU +--gpus参数)是标准且最流畅的用法。
2025-08-23 15:23:40
1093
原创 在 CentOS 7 下将磁盘从 MBR 分区表转换为 GPT 分区表
特性gdisk转换数据安全高(尝试保留分区信息)低(销毁所有分区信息)适用场景带数据转换空盘初始化或可接受数据丢失易用性交互式命令,步骤清晰命令简单,但破坏性强对于绝大多数情况,强烈推荐使用gdisk的转换功能。
2025-08-23 12:36:14
922
原创 Docker 容器中使用宿主机 GPU 资源的两种主流方式
方法优点缺点适用场景--gpus官方推荐,自动化程度高,简单可靠,无需手动挂载设备和库需要额外安装工具包绝大多数使用 NVIDIA GPU 的场景Docker 原生--gpusDocker 原生命令,标准化同样需要 NVIDIA Container Toolkit 作为后端Docker 19.03+ 版本,追求命令标准化手动挂载设备不需要安装额外工具,可控性高极其繁琐,易出错,不易维护调试、特殊需求或非 NVIDIA GPU最佳实践步骤在宿主机上安装正确的 NVIDIA 驱动(使用。
2025-08-22 23:57:37
992
原创 PyTorch Flash Attention库功能与使用详解
flash_attn库是深度学习领域的一项重大工程进步,它通过算法创新解决了注意力机制的硬件瓶颈问题。对于任何从事大模型训练、长上下文推理(如 LLM、多模态模型)的研究员和工程师来说,理解和利用这个库(或 PyTorch 内置的类似优化)都是至关重要的。它已经成为处理长序列任务时的事实标准。
2025-08-21 12:24:28
719
原创 解决NVIDIA 5090D显卡pytorch不支持sm_120问题
这条命令是一个从官方源安装支持 CUDA 12.8 的 PyTorch 最新开发版(夜间版)及其视觉、音频库的指令,主要面向需要体验最前沿功能或参与测试的开发者和研究人员,并伴随着较高的不稳定风险。
2025-08-21 10:51:21
865
原创 解决xinference启动模型报错:CUDA error: no kernel image is available for execution on the device
报错信息——这个错误表明 CUDA 内核与你的 GPU 架构不兼容。
2025-08-21 10:20:19
452
原创 xinference 使用 vllm 引擎
执行了后不再需要单独执行 。当你执行 时,它已经包含了 作为依赖项。 的安装包会自动处理所有必要的依赖关系,包括:你可以通过以下方式验证 vllm 是否已安装:使用 vllm 引擎安装 后,你现在可以使用 vllm 引擎来获得更好的性能:注意事项不要重复安装:如果手动安装 vllm,可能会导致版本冲突GPU 支持:如果你需要 CUDA 支持,确保系统有合适的 NVIDIA 驱动和 CUDA 工具包依赖管理:让 管理依赖是最安全的方式如果遇到问题如果确实需要重新安装 vllm(不推
2025-08-20 15:40:20
243
原创 xinference运行bge-reranker-v2-m3重排序模型的两种启动方式
对于所有 Xinference 模型(包括重排序模型),都必须明确指定。
2025-08-20 15:37:25
328
原创 xinference 运行bge-reranker-v2-m3报错cannot be run on engine解决思路
完整报错信息如下——这个错误表明你在使用 Xorbits Inference (Xinference) 加载模型时遇到了问题。问题在于模型引擎(engine)参数为空,导致无法确定使用哪种引擎来运行该模型。
2025-08-20 14:58:30
352
Premiere CS4教程——制作一个简单的相册
2013-03-17
spring boot发送普通文本邮件/HTML邮件/附件邮件/图片邮件完整代码.zip
2019-09-03
spring mvc 4+mybatis 3+bootstrap+逆向工程+分页插件实现增删改查完整项目源码
2018-07-01
Spring security+jwt服务鉴权完整代码.zip
2019-09-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人