- 博客(372)
- 收藏
- 关注
原创 Ai测试基础
Transformer是一种基于自注意力机制的神经网络架构,由Vaswani等人在2017年提出。它彻底改变了自然语言处理(NLP)领域,取代了传统的循环神经网络(RNN)和卷积神经网络(CNN)在序列建模中的主导地位。Transformer的核心思想是通过自注意力机制捕捉输入序列中各个元素之间的关系,从而实现对长距离依赖的高效建模。
2025-09-05 19:53:32
900
原创 python常见处理张量库
用于张量操作的重塑和维度变换,支持清晰的可读性操作语法。PyTorch的预训练模型库,支持多种计算机视觉模型。用于验证数据格式(如URL、邮箱等)。高效视频读取库,适用于深度学习任务。现代HTTP客户端,支持异步请求。用于终端文本颜色和样式控制。数据分析工具,支持表格操作。文件锁工具,用于进程同步。生成Excel文件的库。
2025-07-06 20:50:27
184
原创 处理域名库之idna
IDNA(Internationalized Domain Names in Applications)库是一个用于处理国际化域名(IDN)的 Python 库。它遵循 IDNA 2008 标准,支持将 Unicode 域名转换为 ASCII 兼容的 Punycode 编码,以便在 DNS 系统中使用。IDNA 库的核心功能是将 Unicode 域名转换为 ASCII 格式的 Punycode,以及反向转换。这对于支持非 ASCII 字符的域名(如中文、阿拉伯文等)至关重要。
2025-07-06 20:42:33
359
原创 视觉语言模型评估之VLMEvalKit
VLMEvalKit 是一个用于评估视觉语言模型(Vision-Language Models, VLMs)性能的工具包。它提供标准化测试框架、多模态数据集支持以及自动化评估流程,帮助研究人员高效比较不同模型的优劣。
2025-07-06 20:38:38
242
原创 mopenMMlab基础库之mengine
mmengine 是 OpenMMLab 生态系统中的基础库,为深度学习任务提供统一的训练框架、模块化组件和扩展接口。它支持模型训练、评估、推理以及分布式训练,是 MMDetection、MMSegmentation 等下游库的核心依赖。
2025-07-06 20:36:15
212
原创 常见模型的数据集和基准测试
HumanEval 是一个由 OpenAI 发布的代码生成评估数据集,用于测试模型在代码生成任务上的能力。它包含 164 个手写的编程问题,涵盖算法、数据结构、字符串操作等多种编程任务。每个问题包含函数签名、描述和测试用例,旨在评估模型从自然语言描述生成正确代码的能力。CommonsenseQA是一个常识推理问答数据集,旨在评估模型对日常常识的理解能力。该数据集包含12,247个选择题,涵盖社交、物理、时间等多领域常识。问题需要结合背景知识或常识进行推理,而非直接从文本中提取答案。
2025-07-06 20:30:10
1016
原创 模型共享工具库之ModelScope
ModelScope是由阿里巴巴开源的模型共享平台及工具库,提供丰富的预训练模型和开发工具,涵盖自然语言处理、计算机视觉、多模态等领域。其核心目标是降低模型使用门槛,支持快速部署和微调。
2025-07-06 20:02:11
391
原创 数据集库之datasets库
,主要用于机器学习领域的数据集加载、预处理和管理。包通常指由Hugging Face维护的。包配合使用,构建完整的机器学习工作流。在Python生态中,
2025-07-06 19:59:01
337
原创 【NLP】无监督的处理文本之SentencePiece
SentencePiece 是一种无监督的文本 tokenizer 和 detokenizer,主要用于自然语言处理(NLP)任务。它直接作用于原始文本,无需预先分词,支持子词(subword)切分,适用于多语言场景。其核心特点是直接从数据中学习分词模型,支持 BPE(Byte Pair Encoding)和 Unigram 算法。Tokenizer(分词器)是将文本数据转换为模型可处理格式的工具,通常用于自然语言处理(NLP)任务。
2025-07-06 19:55:11
785
原创 大模型评测之生成式任务
BLEU:评估生成响应与参考响应之间的相似度。ROUGE:评估生成响应的召回率和精确率。METEOR:综合考虑词汇匹配和语义相似性。Human Evaluation:由人工评估员对响应的自然度、相关性和流畅性进行评分。
2025-07-06 18:48:29
779
原创 大模型评测笔记
模型评测是衡量机器学习或人工智能模型性能的关键环节,涉及多个维度的评估指标和方法。以下从评测指标、常见任务类型、工具和挑战等方面展开说明。
2025-07-06 16:49:13
865
原创 ValueError: n_classes(3) * n_clusters_per_class(2) must be smaller or equal 2**n_informative(2)
原因:make_classification函数还接受一个 n_informative 参数,表示每个类别中信息性特征的数量。默认情况下,如果未指定,n_informative 的值会根据其他参数动态计算。根据你提供的错误信息,似乎 n_informative 的值为2(因为 2**2=4),而 n_classes * n_clusters_per_class = 3 * 2 = 6,这超过了4,因此违反了上述不等式。显示的给n_informative赋值,如下。
2025-07-06 16:25:48
171
原创 领域驱动设计
领域驱动设计(Domain-Driven Design,DDD)是一种软件开发方法,强调通过业务领域的建模和语言统一来指导复杂系统的设计。其核心思想是将业务逻辑与技术实现分离,通过领域模型(Domain Model)反映真实业务需求。
2025-07-05 21:06:23
278
原创 DevOps扩展之DevSecOps
DevSecOps 是 DevOps 的扩展,将安全(Security)融入软件开发的全生命周期(开发、测试、部署、运维)。其核心目标是实现安全左移(Shift Left),即在早期阶段发现并修复漏洞,而非在后期补救。
2025-07-05 21:02:23
295
原创 ai训练师3级判断题
印刷体识别的OCR识别相对手写体的OCR识别要略微复杂些,因为印刷过程中字体很可能变得断裂或者墨水粘连,增加了OCR识别的难度。:文本识别算法CRNN中使用ReLU损失函数,将循环神经网络获取的标签特征分布通过一系列的计算操作转换为真实的预测值。:设计智能客服机器人,需向领域知识库添加问答条目,一般来说,标准问题需要扩展多个类似的句子,机器人才可以正常使用。:scikit-learn中的特征选择模块是基于统计方法的,不包括基于模型的特征选择技术。
2025-07-05 19:57:58
957
原创 ai训练师3级理论题答案
智能体是能够在环境中自主运行的软件实体,它们能够感知周围环境,进行逻辑推理,从经验中学习,并根据学习结果采取相应的行动。良好的沟通技巧有助于训练师与其他团队成员、项目管理者及外部合作伙伴保持顺畅的沟通,确保项目的顺利进行和技术的有效实施。**量子系统之间存在一种特殊的关联关系,改变一个系统的状态会立即影响另一个系统的状态,这种关系被称为:量子纠缠。来呈现人类智能的技术。统一数据规格、删除重复项、纠正错误数据、过滤不符合项目需求的数据。统一数据规格、删除重复项、纠正错误数据、过滤不符合项目需求的数据。
2025-07-05 19:50:10
571
原创 Labelme 导出VOC格式
将生成的output_dir/Annotations/64645.xml和output_dir/SegmentationClass/64645.png移动到“导出文件”文件夹。在Labelme界面完成标注后,点击 File → Save,保存为JSON格式(如64645.json)。这将生成对应的VOC格式文件(包括xml和png标签图)。
2025-07-04 15:17:59
202
原创 使用`pyttsx3`将文本生成中文语音,并保存为WAV文件
要使用pyttsx3库将文本生成中文语音,你需要确保系统上安装了支持中文语音的语音引擎。通常情况下,pyttsx3默认使用系统的语音引擎,因此你需要确保系统上安装了中文语音包。
2025-07-04 13:25:59
239
原创 自动化测试框架之Midscene.js 与影刀(RPA)结合
Midscene.js 是一个轻量级的 JavaScript 测试框架,专注于 UI 自动化测试和交互模拟。影刀是一款国内流行的 RPA(机器人流程自动化)工具,擅长处理重复性任务和跨系统操作。结合两者可以构建高效的自动化测试框架,覆盖从 UI 到后端流程的测试场景。该方案适合需要兼顾 UI 精准测试与企业级流程自动化的场景,实际落地时需根据具体业务调整接口协议和数据格式。影刀客户端需单独安装,注册账号后获取 API 调用权限。
2025-07-01 17:53:07
481
原创 数据清洗之pandas
在数据分析或机器学习中,创建带有缺失值的数据集可以用于测试数据清洗或插补方法的有效性。缺失与已观察到的数据相关,但与未观察到的数据无关。例如,年龄较大的人更可能缺失收入数据。通过统计方法(如 Z-score 或 IQR)识别异常值,并用条件筛选处理。缺失与未观察到的数据本身相关。例如,收入高的人更可能拒绝报告收入。缺失与任何变量无关,完全随机发生。常见填充方法包括均值、中位数、众数或固定值。访问器进行字符串操作,如大小写转换、去除空格、分割等。,可通过参数控制删除行或列。将连续变量离散化,使用。
2025-07-01 17:44:19
326
原创 示波器笔记
示波器是一种电子测量仪器,用于观察电压随时间变化的波形。它广泛应用于电子工程、通信、医疗等领域,主要用于信号分析、故障排查和电路调试。将模拟信号转换为数字信号后处理显示,具有存储、分析和自动测量功能。通过阴极射线管(CRT)直接显示信号波形,适用于实时观察高频信号。设置垂直灵敏度(V/div)和时基(s/div)使波形清晰显示。使用10X衰减探头减少电路负载,测量高频信号时需补偿校准。调整触发模式(边沿、脉冲、视频等)和触发电平稳定波形。使用自动测量功能或光标手动测量参数。测量高压时使用高压差分探头。
2025-06-30 22:48:02
199
原创 自动化故障注入系统
自动化故障注入系统是一种用于模拟硬件或软件故障的工具,通过人为引入错误来评估系统的容错能力、恢复机制和稳定性。广泛应用于芯片测试、分布式系统验证、安全评估等领域。
2025-06-30 22:46:41
323
原创 设计支持百万级用例管理的分布式测试框架
测试结果采用时序数据库InfluxDB存储,配合Grafana实现实时监控。采用微服务架构,将用例管理、任务调度、执行节点等模块解耦。服务发现使用Consul或Etcd,消息队列采用Kafka或RabbitMQ实现异步通信。用例数据采用水平分片策略,按业务域或哈希值分散存储。MongoDB或Cassandra适合非结构化用例数据,MySQL分库分表适用于结构化数据。动态注册执行节点,通过心跳机制监控节点状态。节点负载均衡采用加权轮询算法。采用一致性哈希算法分配测试任务,避免节点增减导致大规模数据迁移。
2025-06-30 22:46:07
364
原创 MySQL binlog的几种日志录入格式以及区别
MIXED格式结合ROW和STATEMENT,默认使用STATEMENT,但在可能引发不一致的操作(如使用不确定函数)时自动切换为ROW。MySQL的二进制日志(binlog)记录所有修改数据的操作,支持多种录入格式,每种格式适用于不同场景。ROW格式记录每一行数据的变化细节,而非SQL语句本身。例如更新某行时,会记录该行修改前后的完整数据。STATEMENT格式记录实际的SQL语句,而非行数据变化。适用场景:需要平衡日志量和一致性的场景。适用场景:主从复制、数据恢复。适用场景:简单查询为主的场景。
2025-06-30 22:44:47
276
原创 GraphGen训练数据合成
这些模型可以控制图的密度、节点数量和连接方式,适用于不同场景的需求。这种方法保留了真实图的结构特性,适用于需要高保真数据的场景。在生成的图结构中注入节点和边的属性。属性值可以从预定义的分布中采样或基于规则生成。生成训练数据是GraphGen模型的关键步骤,可以通过多种方法实现数据合成。对于特定领域的图数据,需要验证生成的图是否符合领域规则。对图的局部结构进行随机修改,如添加或删除边、交换节点连接。分析合成数据集的多样性,避免生成过于相似或重复的样本。数据增强可以提高合成数据的多样性和模型的泛化能力。
2025-06-30 22:44:13
286
原创 使用vLLM部署Synthesizer Model和Trainee Model
若模型架构特殊,需在vLLM中注册自定义模型类。以上步骤涵盖了从安装到部署的完整流程,适用于大多数LLM模型的vLLM部署场景。
2025-06-30 22:43:48
231
原创 推理引擎之TurboMind
TurboMind 是专为大型语言模型(LLM)设计的高效推理引擎,其核心设计目标包括低延迟、高吞吐量以及资源优化。Tokenizer:基于 SentencePiece 实现高效文本编码/解码:采用动态批处理与持续批处理技术KV Cache:实现显存优化的键值缓存管理Attention:集成 FlashAttention 和 PagedAttention 加速Sampling:支持多种解码策略(贪心、beam search、top-k等)
2025-06-30 22:43:08
385
原创 智能体协议 MCP + 大模型
MCP(Multi-Agent Collaboration Protocol)是一种面向多智能体协作的协议框架,旨在规范智能体间的通信、任务分配与协同决策。模块化设计:支持灵活扩展智能体的能力模块。标准化接口:通过统一的通信协议(如 JSON/REST)实现跨平台交互。动态编排:可根据任务需求动态组合智能体工作流。典型应用场景包括自动化客服、分布式数据分析、机器人集群协作等。
2025-06-30 22:43:02
454
原创 多智能协作框架之CAMEL
CAMEL(Communication Agents for Multimodal Empirical Learning)是一种多智能体协作框架,旨在通过智能体间的交互实现复杂任务。其核心思想是模拟人类分工协作模式,结合自然语言处理(NLP)、强化学习(RL)和知识蒸馏等技术,提升智能体的自主性与协同能力。
2025-06-30 22:42:50
287
原创 强化学习OREAL
更新策略网络时使用软更新(Soft Update): $$ \theta_{target} = \tau \theta_{policy} + (1-\tau)\theta_{target} $$ 其中$\tau$通常取0.005。对于连续动作空间,使用确定性策略梯度(DPG)或随机策略优化。策略网络输出动作均值$mu$和方差$\sigma$,通过重参数化技巧采样动作: $$ a = \mu + \sigma \cdot \epsilon, \epsilon \sim \mathcal{N}(0,1) $$
2025-06-30 22:42:45
238
原创 智能创作体MinerU
系统提取论文核心观点生成视觉化卡片,包含关键数据、研究结论和图表。适用于社交媒体分享或会议资料分发,可手动调整布局和配色。
2025-06-30 22:42:39
444
原创 简化大模型工具LazyLLM
LazyLLM 是一个专注于简化大模型(如 GPT、LLaMA 等)应用开发的工具或框架,其核心理念是通过自动化或半自动化的方式降低大模型的使用门槛,提升开发效率。它可能涉及模型部署、推理优化、API封装等功能,适合快速构建基于大模型的应用程序。
2025-06-30 22:42:34
469
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人