学术菜鸟小晨
5年IT从业经验,人工智能高级算法工程师、人工智能领域新星创作者、博客专家
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pdf转word/markdown等格式——MinerU的部署:2024最新的智能数据提取工具
智能清理:自动移除页眉、页脚、脚注、页码等干扰内容,确保文本语义连贯。结构保持:完整保留原文档的层级结构,包括标题、段落、列表等。多模态支持:精确提取图片、表格及其说明文字,支持图像、表格、公式等多种内容的识别和处理。公式转换:自动识别文档中的公式并将其转换为LaTeX格式。多语言OCR:支持84种语言的文字识别,能够处理扫描版PDF和乱码PDF。多种输出格式:支持多种输出格式,如Markdown、JSON等,方便后续分析和处理。原创 2024-12-05 11:27:37 · 2452 阅读 · 0 评论 -
实战RAG第二天——xinference部署大模型,全部代码,保姆级教学
是一个新兴的推理框架,旨在为大规模语言模型(LLM)和其他机器学习模型提供高效的推理支持。它允许开发者在多种不同硬件上运行深度学习模型,同时优化推理性能。Xinference 是一个基于 AI 的推理平台,专门用于高效推理大规模语言模型(如 GPT 系列)以及其他机器学习模型。它主要聚焦于提供高度优化的推理性能,尤其是在分布式系统、多 GPU 环境以及各种异构硬件(如 CPU、GPU 和加速器)上。:支持在多 GPU 和分布式系统上运行,确保在处理大规模模型时依然保持高效。原创 2024-10-18 18:09:32 · 796 阅读 · 0 评论 -
实战RAG第一天——llama_index向量索引,查询引擎,搜索知识库问答,全部代码,保姆级教学
支持与多种大语言模型集成,例如 OpenAI 的 GPT-3、Meta 的 LLaMA 系列以及 Hugging Face 提供的模型。)是一个用于构建、查询、索引大型文档和数据集的开源框架。它的核心功能是帮助开发者将大语言模型(LLM)与自己的数据集无缝集成,从而进行知识库的构建、查询等任务。使用 Python 编写,并结合了多种大语言模型技术和向量化搜索工具,使得用户能够轻松地在自己的文档库或数据集中提取信息、生成摘要、回答问题等。构建和维护的索引是向量索引,利用文档的向量表示进行高效的相似性搜索。原创 2024-10-18 15:20:29 · 824 阅读 · 0 评论 -
实战千问2大模型第三天——Qwen2-VL-7B(多模态)视频检测和批处理代码测试
阿里通义千问开源新一代视觉语言模型Qwen2-VL。其中,Qwen2-VL-72B在大部分指标上都达到了最优,刷新了开源多模态模型的最好表现,甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。1、能读懂不同分辨率和不同长宽比的图片:Qwen2-VL在多个视觉理解基准测试中取得了全球领先的表现,其中包括但不限于考察数学推理能力的MathVista、考察文档图像理解能力的DocVQA、考察真实世界空间理解能力的RealWorldQA、考察多语言理解能力的MTVQA。原创 2024-09-11 15:02:44 · 2544 阅读 · 0 评论 -
实战千问2大模型第二天——Qwen2-VL-7B(多模态)的部署和测试
2024年 8 月 30 日,通义千问团队今天对 Qwen-VL(视觉语言、Vision Language)模型进行更新,推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了与上一代模型 Qwen-VL 不同,,从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知,使模型能够处理任何清晰度或大小的图像。原创 2024-09-10 17:57:28 · 4208 阅读 · 0 评论 -
实战千问2大模型第一天——Qwen2-7B(知识问答)的部署和fastapi封装
Qwen2-7B是由阿里云通义千问团队开发的一系列大型语言模型中的一个。这个模型是基于Transformer架构的,包含自注意力和因果掩码机制,专注于处理和生成自然语言文本。Qwen2-7B是在超大规模的预训练数据上训练得到的,这些数据不仅包括中英文,还包含其他25种语言的高质量数据。这个模型不仅在语言理解和生成方面表现出色,还在编程、数学解题等多个领域显示了其先进的性能。原创 2024-09-10 11:27:31 · 1652 阅读 · 0 评论 -
3D Gaussian Splatting 部署
简介:3D Gaussian Splatting是一种用一组2d图像创建3d场景的方法,你只需要一个场景的视频或者一组照片就可以获得这个场景的高质量3d表示,使你可以从任何角度渲染它。它们是一类辐射场方法(如NeRF),但同时训练速度更快(同等质量)、渲染速度更快,并达到更好或相似的质量。3D Gaussian Splatting可以实现无界且完整的场景1080p分辨率下进行高质量实时(≥ 100 fps)视图合成。该论文获得的siggraph 2023最佳论文。原创 2024-09-03 18:04:21 · 4590 阅读 · 0 评论 -
OOTD一键换衣(环境部署保姆级教学,包括完整fastapi访问,全部换衣代码)
图像分割和识别:使用深度学习模型,如卷积神经网络(CNN),对上传的人物照片进行图像分割,识别出照片中的人物身体各部分以及当前穿着的服装。姿态估计:通过姿态估计技术,识别人物的具体姿势,包括手臂、腿部、头部等的位置,这对于正确覆盖新服装至关重要。服装变形和适配:根据人物的体型和姿态,使用图像处理技术对选择的新服装图片进行适当的变形和调整,以自然地融合到原始照片中。风格迁移和细节调整:进一步利用风格迁移等技术调整新服装的纹理、色彩和阴影,使其在光线、颜色和细节上与原照片保持一致性。原创 2024-08-27 09:23:51 · 785 阅读 · 0 评论 -
语音识别sensevoice,流式实时转录(包括vad断句,全部代码)保姆教学
模型的推理与部署SenseVoice模型提供了多种推理方式,包括使用modelscope pipeline进行推理,以及直接使用SenseVoiceSmall模型进行推理。此外,还可以使用funasr库进行推理,该库已经集成了vad(声音活动检测)模型,支持任意时长音频输入。在服务部署方面,SenseVoice模型具有完整的服务部署链路,支持多并发请求,确保了在实际应用中的高效性和稳定性。SenseVoice模型的性能测试。原创 2024-08-19 11:47:31 · 5429 阅读 · 1 评论 -
语音识别(实时语音转录)——funasr的详细部署和使用教程(包括实时语音转录)
阿里达摩院开源大型端到端语音识别工具包FunASR:FunASR提供了在大规模工业语料库上训练的模型,并能够将其部署到应用程序中。工具包的核心模型是Paraformer,这是一个非自回归的端到端语音识别模型,经过手动注释的普通话语音识别数据集进行了训练,该数据集包含60,000小时的语音数据。为了提高Paraformer的性能,本文在标准的Paraformer基础上增加了时间戳预测和热词定制能力。原创 2024-08-13 15:30:16 · 32088 阅读 · 4 评论 -
数字人实战第二天——DH_live 部署教程(2024最新最强数字人实时驱动方案)
out数字人实时驱动技术不仅推动了技术和艺术的融合,也为各行各业提供了新的工具和方法,使得虚拟与现实的界限日益模糊。DH_live实时驱动:消耗显存不到2G。原创 2024-08-09 16:55:46 · 7386 阅读 · 11 评论 -
图像分割SAM辅助标注工具,可调用SAM等大模型(保姆级教程)
SAM等模型通过先进的深度学习技术,实现了高效、精准的图像自动化标注。这不仅显著降低了人工标注的工作量和成本,提高了标注效率和精度,还为各个领域的研究和应用提供了强大的技术支持。随着SAM等模型的不断完善和应用,自动化标注将在更多领域展现出巨大的潜力和价值。原创 2024-07-10 10:21:39 · 7914 阅读 · 20 评论 -
数字人实战第一天——最新数字人MuseTalk效果展示
最新数字人MuseTalk效果展示,它是一个实时的音频驱动唇部同步模型。该模型能够根据输入的音频信号,自动调整数字人物的面部图像,使其唇形与音频内容高度同步。这样,观众就能看到数字人物口型与声音完美匹配的效果。MuseTalk 特别适用于256 x 256像素的面部区域,且支持中文、英文和日文等多种语言输入。在NVIDIA Tesla V100显卡上,MuseTalk 能够实现超过每秒30帧的实时推理速度。此外,用户还可以通过调整面部区域的中心点,进一步优化生成效果。原创 2024-06-07 14:29:32 · 3546 阅读 · 0 评论 -
零基础入门AI大模型应用开发——第二天:流式输出和角色扮演(提示词)(全部代码和详细部署流程)
是指模型在生成内容时不是一次性输出全部结果,而是逐步、连续地生成输出。这种方式类似于人类在进行口语交流或写作时的思考过程,即边思考边表达。流式输出的优点包括更高的灵活性和交互性,能够在长文本生成中动态调整内容,同时允许用户在生成过程中即时提供反馈或修改指导方向。是提供给模型的输入文本,用于引导模型的输出方向和风格。简单来说,提示词就是告诉模型用户希望得到什么样的信息或回答。提示词的设定对模型的输出结果有决定性影响。通过精心设计的提示词,可以引导模型在特定领域内生成更准确、更符合预期的回答或内容。原创 2024-07-05 16:58:44 · 1741 阅读 · 0 评论 -
零基础入门AI大模型应用开发——第一天:大模型本地部署,调用大模型API可直接工程化应用(全部代码和详细部署流程)
Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。以下是其主要特点和功能概述:1. 简化部署:Ollama 目标在于简化在 Docker 容器中部署大型语言模型的过程,使得非专业用户也能方便地管理和运行这些复杂的模型。2.轻量级与可扩展:作为轻量级框架,Ollama 保持了较小的资源占用,同时具备良好的可扩展性,允许用户根据需要调整配置以适应不同规模的项目和硬件条件。原创 2024-07-05 16:16:42 · 3629 阅读 · 3 评论 -
实战whisper第三天:fast whisper 语音识别服务器部署,可远程访问,可商业化部署(全部代码和详细部署步骤)
Fast Whisper 是对 OpenAI 的 Whisper 模型的一个优化版本,它旨在提高音频转录和语音识别任务的速度和效率。Whisper 是一种强大的多语言和多任务语音模型,可以用于语音识别、语音翻译和语音分类等任务。原创 2024-07-02 15:29:42 · 2279 阅读 · 1 评论 -
最新ChatTTS语音合成项目本地、服务器部署(可远程访问(全部代码和详细部署步骤))
的文本转语音模型。它支持英语和中文。模型经过 100,000+ 小时的中英文训练。HuggingFace 上的开源版本是一个 40,000 小时的预训练模型,没有 SFT。文字转语音:在文本框中输入文字,ChatTTS会生成对应的语音,并自动调整韵律和停顿。实时语音对话:与大语言模型结合,实现实时语音对话功能。调节音色:在“Audio Seed”处可以调节数字指定说话人的音色,或通过摇骰子随机生成一种音色。原创 2024-06-05 17:05:14 · 2377 阅读 · 0 评论 -
实战whisper第二天:直播语音转字幕(全部代码和详细部署步骤)
基于Whisper的实时直播语音转录或翻译是一项使用OpenAI的Whisper模型实现的技术,它能够实时将直播中的语音内容转录成文本,甚至翻译成另一种语言。这一过程大致分为三个步骤:捕获直播音频流、语音识别(转录)以及翻译(如果需要)。下面详细解释其原理和意义。原创 2024-03-21 17:25:07 · 7122 阅读 · 3 评论 -
Umi-OCR 部署,并通过postman实现访问(全部代码和详细部署步骤)
OCR是“Optical Character Recognition”(光学字符识别)的缩写。这是一种技术,用于从图像(如扫描的文档、照片中的文本、屏幕截图等)中识别并提取文字。:OCR可以识别印刷体和手写文字,并将其转换为机器编码的文本,例如ASCII或Unicode。:OCR帮助将纸质文档转换成可编辑和可搜索的电子格式,这是数字化办公和档案管理的重要步骤。:通过OCR,可以自动化许多文档处理任务,例如数据入口、文件分类和信息提取。原创 2024-03-19 10:15:55 · 12935 阅读 · 0 评论 -
TTS语音合成部署服务器,可远程访问(全部代码和详细部署步骤)
TTS(Text-to-Speech,文本转语音)是一种将书面文本转换成口头语言输出的技术。用户输入文本,TTS系统将这些文本“读”出来,通常是通过合成语音的形式。这种技术可以使计算机、智能手机、平板电脑和其他设备通过语音与用户交流。随着技术的发展,TTS的自然度和可理解性在不断提高,使得它在我们日常生活中的应用越来越广泛。原创 2024-03-19 09:19:24 · 2265 阅读 · 5 评论 -
GPT-SoVITS语音合成服务器部署,可远程访问(全部代码和详细部署步骤)
此外,项目还提供了一些集成工具,包括声音伴奏分离,自动训练集分割,中文ASR和文本标签,帮助初学者创建训练数据集和 GPT/SoVITS 模型。Zero-shot TTS 可以让用户输入5秒钟的语音样本并立即体验转换后的语音,而 Few-shot TTS 则可以通过使用仅一分钟的训练数据进行模型微调,从而提高语音相似度和真实性。WebUI 工具:集成工具包括声音伴奏分离,自动训练集分割,中文ASR和文本标签,帮助初学者创建训练数据集和GPT/SoVITS模型。原创 2024-03-18 10:12:35 · 4425 阅读 · 0 评论 -
实战whisper语音识别第一天,部署服务器,可远程访问,实时语音转文字(全部代码和详细部署步骤)
Whisper是OpenAI于2022年发布的一个开源深度学习模型,专门用于语音识别任务。它能够将音频转换成文字,支持多种语言的识别,包括但不限于英语、中文、西班牙语等。Whisper模型的特点是它在多种不同的音频条件下(如不同的背景噪声水平、说话者的口音、语速等)都能实现高准确率的语音识别,这得益于它在训练过程中使用的大量多样化的音频数据。原创 2024-03-18 10:08:05 · 6535 阅读 · 2 评论