###文章总结：MB-TaylorFormer与YOLOv8的深度融合-含代码与理论

150 浏览量 2025-06-28 14:28:01 上传评论收藏 1.31MB PDF 举报

资源推荐

资源详情

资源评论

基

于

MB-TaylorFormer

的

YOLOv8

深

度

融

合

：

解

锁

图

像

感

知

与

⾼

效

检

测

的

新

范

式



👋



各

位

领

域

的

探

索

者

、

对

计

算

机

视觉

充

满

热

情

的

伙伴们

，

你们

好

！

在

追

求

⽬

标检

测

模

型

极

致

性

能

的

道

路

上

，

我

们

常常

会

遇

到

两

⼤

挑

战

：

⼀

是

如

何

让

模

型

更

好

地

“

看

懂

”

复

杂

的

图

像

内

容

，

尤

其

是

在

⾯

对

图

像

退

化

（

如

雾霾

、

低

光

照

）

时

；

⼆

是

如

何

在

保

证

性

能

的

同

时

，

有

效

控

制

模

型

的

计

算

复

杂

度

和

参

数

量

。

今

天

，

我

将

带

领

⼤

家

踏

上⼀

段

激

动

⼈

⼼

的

旅

程

，

深

⼊

探

索

如

何

将

⼀

种

新

颖

且

⾼

效

的



多

⽀

路

线

性

Transformer

⽹络

――

MB-TaylorFormer



巧

妙

地

融

⼊

到

我

们

熟

知

的



YOLOv8



框

架

之中

。



传

统

的

卷

积

神

经⽹络

（

CNNs

）

在

局

部

特

征

提

取

⽅

⾯

表

现

卓

越

，

但

其

固

有

的

局

部

感

受

野

特

性

使

其

在

捕捉

图

像

中

的

⻓

距

离

依

赖

关

系

时显

得

⼒

不从

⼼

。

尽

管

Transformer

架构

凭

借

其

强

⼤

的

全

局

注

意

⼒

机

制

解

决

了

⻓

距

离

依

赖

问

题

，

但

其

平

⽅

级

别

的

计

算

复

杂

度

（

$O(N^2)$

，

是

序

列

⻓

度

）

在

⾼

分

辨

率

图

像

处

理

中

往

成

为

性

能

瓶

颈

，

限

制

了

其

在

实

时

应

⽤

中

的

普

及

。

MB-TaylorFormer

，

作

为⼀

种

为

图

像

去

雾

等

任

务

⽽

设计

的

创

新

架构

，

它

巧

妙

地

结

合

了

多

项

先

进

技

术

：

通过

泰

勒

展

开

近

似

来

改

进

传

统

的

Softmax

注

意

⼒

，

从

⽽

实

现

线

性

复

杂

度

的

注

意

⼒

机

制

；

同

时

，

它

采

⽤

多

⽀

路

和

多

尺

度

结

构

，

使

得

模

型

能

够

同

时

获

取

图

像

的

多

层

次

和

多

尺

度

的

信

息

。

这

种

设计

不仅

在图

像

恢

复

任

务

中

展

现

出

卓

越

的

性

能

，

更

重

要

的

是

，

它

提

供

了⼀

种

⾼

效

捕

获

全

局

上下

⽂

信

息

并

增

强

特

征

表

达

能

⼒

的

通

⽤

⽅

法

。

在

本

篇

教

程

中

，

我

们

将

深

⼊

剖

析

MB-TaylorFormer

的

核

⼼

原

理

，

并

⼿把⼿

地

指

导

你

如

何

将

其

作

为

YOLOv8

的

⾼

级

预

处

理

模

块

或

增

强

型

主

⼲

⽹络

起

点

。

我

们

将

详

细

讲

解

环

境

搭

建

、

代

码

集

成

、

模

型

配

置

等

关

键

步

骤

，

让

你

亲

眼

⻅

证

MB-TaylorFormer

如

何

赋

能

YOLOv8

，

使

其

在

⾯

对

复

杂

视觉

任

务

时

，

不仅

保

持

⾼

效

，

更

能

迸

发

出前

所

未有

的

强

⼤

感

知

和

检

测

能

⼒

！

💪

✨



🛠



将

MB-TaylorFormer

融

合

进

YOLOv8

：

代

码

与

结

构

⼤

揭

秘



将

MB-TaylorFormer

集

成

到

YOLOv8

中

，

涉

及

到

对

其

源

代

码

结

构

的

巧

妙

扩

展

和

配

置

。

我

们

将

按

照

你

提

供

的

步

骤

，

⼀

步步

完

成

这

个

“

移

植

”

⼿

术

，

让

YOLOv8

能

够

识

别

并

利

⽤

MB-TaylorFormer

的

强

⼤

能

⼒

。



2.1

步

骤

⼀

：

创

建

MB-TaylorFormer

核

⼼

代

码

⽂

件

(

TaylorFormer.py

)

⾸

先

，

我

们

需

要

为

MB-TaylorFormer

在

YOLOv8

的

项

⽬

结

构

中

找

到

⼀个

合

适

的

“

家

”

。

按

照

约

定

俗

成

的

模

块

化

设计

原

则

，

我

们会

在



ultralytics/nn



⽬

录

下

创

建

⼀个

新

的

⽂

件

夹



Addmodules

。

这

个



Addmodules



⽂

件

夹

将

专

⻔

⽤

于

存

放

我

们

⾃

定

义

的

、

添

加到

YOLOv8

⽹络结

构

中

的

模

块

。

接

着

，

在

这

个

新

创

建

的

⽂

件

夹

中

，

我

们

将

创

建

⼀个

名

为



TaylorFormer.py



的

⽂

件

，

并

将

MB-TaylorFormer

的

核

⼼

代

码

复

制到

这

个

⽂

件

中

。

这

个



TaylorFormer.py



⽂

件

不仅仅

是

简

单

的

代

码

堆

砌

，

它

承

载

了

MB-TaylorFormer

的

完

整

架构

和

创

新

机

制

。

让

我

们

来

深

⼊

剖

--

👋



各

位

领

域

的

探

索

者

、

对

计

算

机

视觉

充

满

热

情

的

伙伴们

，

你们

好

！

在

追

求

⽬

标检

测

模

型

极

致

性

能

的

道

路

上

，

我

们

常常

会

遇

到

两

⼤

挑

战

：

⼀

是

如

何

让

模

型

更

好

地

“

看

懂

”

复

杂

的

图

像

内

容

，

尤

其

是

在

⾯

对

图

像

退

化

（

如

雾霾

、

低

光

照

）

时

；

⼆

是

如

何

在

保

证

性

能

的

同

时

，

有

效

控

制

模

型

的

计

算

复

杂

度

和

参

数

量

。

今

天

，

我

将

带

领

⼤

家

踏

上⼀

段

激

动

⼈

⼼

的

旅

程

，

深

⼊

探

索

如

何

将

⼀

种

新

颖

且

⾼

效

的



多

⽀

路

线

性

Transformer

⽹络

――

MB-TaylorFormer



巧

妙

地

融

⼊

到

我

们

熟

知

的



YOLOv8



框

架

之中

。



传

统

的

卷

积

神

经⽹络

（

CNNs

）

在

局

部

特

征

提

取

⽅

⾯

表

现

卓

越

，

但

其

固

有

的

局

部

感

受

野

特

性

使

其

在

捕捉

图

像

中

的

⻓

距

离

依

赖

关

系

时显

得

⼒

不从

⼼

。

尽

管

Transformer

架构

凭

借

其

强

⼤

的

全

局

注

意

⼒

机

制

解

决

了

⻓

距

离

依

赖

问

题

，

但

其

平

⽅

级

别

的

计

算

复

杂

度

（

$O(N^2)$

，

是

序

列

⻓

度

）

在

⾼

分

辨

率

图

像

处

理

中

往

成

为

性

能

瓶

颈

，

限

制

了

其

在

实

时

应

⽤

中

的

普

及

。

MB-TaylorFormer

，

作

为⼀

种

为

图

像

去

雾

等

任

务

⽽

设计

的

创

新

架构

，

它

巧

妙

地

结

合

了

多

项

先

进

技

术

：

通过

泰

勒

展

开

近

似

来

改

进

传

统

的

Softmax

注

意

⼒

，

从

⽽

实

现

线

性

复

杂

度

的

注

意

⼒

机

制

；

同

时

，

它

采

⽤

多

⽀

路

和

多

尺

度

结

构

，

使

得

模

型

能

够

同

时

获

取

图

像

的

多

层

次

和

多

尺

度

的

信

息

。

这

种

设计

不仅

在图

像

恢

复

任

务

中

展

现

出

卓

越

的

性

能

，

更

重

要

的

是

，

它

提

供

了⼀

种

⾼

效

捕

获

全

局

上下

⽂

信

息

并

增

强

特

征

表

达

能

⼒

的

通

⽤

⽅

法

。

在

本

篇

教

程

中

，

我

们

将

深

⼊

剖

析

MB-TaylorFormer

的

核

⼼

原

理

，

并

⼿把⼿

地

指

导

你

如

何

将

其

作

为

YOLOv8

的

⾼

级

预

处

理

模

块

或

增

强

型

主

⼲

⽹络

起

点

。

我

们

将

详

细

讲

解

环

境

搭

建

、

代

码

集

成

、

模

型

配

置

等

关

键

步

骤

，

让

你

亲

眼

⻅

证

MB-TaylorFormer

如

何

赋

能

YOLOv8

，

使

其

在

⾯

对

复

杂

视觉

任

务

时

，

不仅

保

持

⾼

效

，

更

能

迸

发

出前

所

未有

的

强

⼤

感

知

和

检

测

能

⼒

！

💪

✨



🛠



将

MB-TaylorFormer

融

合

进

YOLOv8

：

代

码

与

结

构

⼤

揭

秘



将

MB-TaylorFormer

集

成

到

YOLOv8

中

，

涉

及

到

对

其

源

代

码

结

构

的

巧

妙

扩

展

和

配

置

。

我

们

将

按

照

你

提

供

的

步

骤

，

⼀

步步

完

成

这

个

“

移

植

”

⼿

术

，

让

YOLOv8

能

够

识

别

并

利

⽤

MB-TaylorFormer

的

强

⼤

能

⼒

。



2.1

步

骤

⼀

：

创

建

MB-TaylorFormer

核

⼼

代

码

⽂

件

(

TaylorFormer.py

)

⾸

先

，

我

们

需

要

为

MB-TaylorFormer

在

YOLOv8

的

项

⽬

结

构

中

找

到

⼀个

合

适

的

“

家

”

。

按

照

约

定

俗

成

的

模

块

化

设计

原

则

，

我

们会

在



ultralytics/nn



⽬

录

下

创

建

⼀个

新

的

⽂

件

夹



Addmodules

。

这

个



Addmodules



⽂

件

夹

将

专

⻔

⽤

于

存

放

我

们

⾃

定

义

的

、

添

加到

YOLOv8

⽹络结

构

中

的

模

块

。

接

着

，

在

这

个

新

创

建

的

⽂

件

夹

中

，

我

们

将

创

建

⼀个

名

为



TaylorFormer.py



的

⽂

件

，

并

将

MB-TaylorFormer

的

核

⼼

代

码

复

制到

这

个

⽂

件

中

。

这

个



TaylorFormer.py



⽂

件

不仅仅

是

简

单

的

代

码

堆

砌

，

它

承

载

了

MB-TaylorFormer

的

完

整

架构

和

创

新

机

制

。

让

我

们

来

深

⼊

剖

析

这

段

代

码

，

理

解

每

⼀个

模

块

如

何

协

同

⼯

作

，

共

同

构

建

起

这

个

强

⼤

的

⽹

络

。

代

码

块



import torch

import torch.nn as nn

import torch.nn.functional as F

from torchvision.ops.deform_conv import DeformConv2d

引

⼊

可变

形

卷

积

import numbers

import math

from einops import rearrange

⽤

于

张

量

维

度

重

排

的

强

⼤

⼯

具

import numpy as np

__all__ = ['MB_TaylorFormer']

定

义

可

导

出

的

模

块

名

称

freqs_dict = dict()

字

典

，

但

在

此

代

码

⽚

段

中

未

使

⽤

，

可

能

⽤

于

其

他

TaylorFormer

变

体

##########################################################################

辅

助函

数

：

处

理

张

量

维

度

转

换

def to_3d(x):

将

形

状

为

(B, C, H, W)

的

张

量

转

换

为

(B, H*W, C)

的

张

量

# B: Batch size, C: Channels, H: Height, W: Width

# H*W

相

当

于

序

列

⻓

度

，

相

当

于

特

征

维

度

return rearrange(x, 'b c h w -> b (h w) c')

def to_4d(x, h, w):

将

形

状

为

(B, H*W, C)

的

张

量

转

换

回

(B, C, H, W)

的

张

量

return rearrange(x, 'b (h w) c -> b c h w', h=h, w=w)

##########################################################################

# Layer Normalization

变

体

：

⽤

于

稳

定

Transformer

的

训

练

class BiasFree_LayerNorm(nn.Module):

不

带

偏

置

的

LayerNorm

def __init__(self, normalized_shape):

super(BiasFree_LayerNorm, self).__init__()

if isinstance(normalized_shape, numbers.Integral):

normalized_shape = (normalized_shape,)

normalized_shape = torch.Size(normalized_shape)

assert len(normalized_shape) == 1

确

保

只

对

最

后

⼀个

维

度

进

⾏

归

⼀

化

self.weight = nn.Parameter(torch.ones(normalized_shape))

可

学

习

的

缩

放

参

数

self.normalized_shape = normalized_shape

def forward(self, x):

计

算

⽅

差

，

然

后

进

⾏

归

⼀

化

并

乘

以

学

习

到

的

权

重

sigma = x.var(-1, keepdim=True, unbiased=False)

return x / torch.sqrt(sigma + 1e-5) * self.weight

class WithBias_LayerNorm(nn.Module):

带

偏

置

的

LayerNorm (

标

准

实

现

)

def __init__(self, normalized_shape):

super(WithBias_LayerNorm, self).__init__()

if isinstance(normalized_shape, numbers.Integral):

normalized_shape = (normalized_shape,)

normalized_shape = torch.Size(normalized_shape)

assert len(normalized_shape) == 1

self.weight = nn.Parameter(torch.ones(normalized_shape))

self.bias = nn.Parameter(torch.zeros(normalized_shape))

可

学

习

的

偏

置

参

数

self.normalized_shape = normalized_shape

def forward(self, x):

计

算

均

值

和

⽅

差

，

进

⾏

归

⼀

化

并应

⽤

学

习

到

的

权

重

和

偏

置

mu = x.mean(-1, keepdim=True)

sigma = x.var(-1, keepdim=True, unbiased=False)

return (x - mu) / torch.sqrt(sigma + 1e-5) * self.weight + self.bias

class LayerNorm(nn.Module):

封

装

不

同

类

型

的

LayerNorm

，

并

在

张

量

上

应

⽤

(

先

转

，

再

转

回

4D)

def __init__(self, dim, LayerNorm_type):

super(LayerNorm, self).__init__()

if LayerNorm_type == 'BiasFree':

self.body = BiasFree_LayerNorm(dim)

else:

self.body = WithBias_LayerNorm(dim)

def forward(self, x):

h, w = x.shape[-2:]

return to_4d(self.body(to_3d(x)), h, w)

先

将

H,W

维

度

展

平

进

⾏

LayerNorm

，

再

恢

复

##########################################################################

## Gated-Dconv Feed-Forward Network (GDFN) -

⻔

控

深

度

卷

积

前

馈

⽹络

class FeedForward(nn.Module):

def __init__(self, dim, ffn_expansion_factor, bias):

super(FeedForward, self).__init__()

hidden_features = int(dim * ffn_expansion_factor)

隐

藏

层

的

特

征

维

度

# 1x1

卷

积

，

将

通道

数

从

dim

扩

展

到

hidden_features * 2

self.project_in = nn.Conv2d(dim, hidden_features * 2, kernel_size=1,

bias=bias)

深

度

可

分

离

卷

积

（

DWConv

）

：

卷

积

核

⼤

⼩

为

3x3

，

组

卷

积

数

量

等

于

通道

数

，

只

在

每

个

通道

上

进

⾏

卷

积

这

种

⽅

式

可

以

在

不

增

加

参

数

量

的

情

况

下

增

加

感

受

野

self.dwconv = nn.Conv2d(hidden_features * 2, hidden_features * 2,

kernel_size=3, stride=1, padding=1,

groups=hidden_features * 2, bias=bias)

# 1x1

卷

积

，

将

通道

数

从

hidden_features

降

回

dim

self.project_out = nn.Conv2d(hidden_features, dim, kernel_size=1,

bias=bias)

def forward(self, x):

x = self.project_in(x)

扩

展

通道

x1, x2 = self.dwconv(x).chunk(2, dim=1)

深

度

卷

积

后

，

将

通道

分

成

两

部

分

(x1, x2)

x = F.gelu(x1) * x2

⻔

控

机

制

：

GELU

激

活

后

与

相

乘

，

提

供

⾮

线

性

并

控

制

信

息

流

x = self.project_out(x)

恢

复

通道

return x

##########################################################################

剩余37页未读，继续阅读

评论收藏

内容反馈

博导ai君

粉丝: 438

### 文章总结：MB-TaylorFormer与YOLOv8的深度融合-含代码与理论

最新资源

### 文章总结：MB-TaylorFormer与YOLOv8的深度融合-含代码与理论

深度学习yolov5模型训练使用 模型参数-yolov5权重.pt文件

JVM调优总结 Xms -Xmx -Xmn -Xss

yolov5身份证件卡片识别数据集ID-Card-Detector-yolov5.zip

SAP仓库操作流程--权威教程

YOLOv3-ADS：一种基于YOLOv3的深度学习目标检测压缩模型.pdf

Yolov8-seg分割预训练模型

orcad10.5详细安装指南

风云4号卫星GEO说明文件

ATC_Yolov5_from_Pytorch_Ascend310.zip

100-uC-Modbus

PADS9.3_Logic教程

英特尔Intel笔记本电脑CPU分类大全

Complex-YOLOv4-Pytorch:本文基于YOLOv4的PyTorch实现

HP-UX下Oracle11g安装_详细讲解

DDR内存常用品牌颗粒识别

Jquery特效--最好的设计

Oracle_EM_10g_Grid_Control_for_Windows安装步骤

基于Pytorch的NanoDet项目裁剪实现摄像头实时目标检测源码+说明文档(下载直接使用).zip

人脸识别MB-LBP

D3debug文档

Ebook\释放C盘空间的27招技巧

汇编语言实验指导

IBM MB V7 实用教程 IBM官方版

VMware GSX Server 3.2下的windows server 2003 群集实验

2013年CPU最新排名(含笔记本CPU)

c#_对矩阵的操作代码

java_jvm_参数_-Xms_-Xmx_-Xmn_-Xss_调优总结.pdf

PowerPCB软件培训.pdf

循序渐进Linux.

python实现采集yarn队列资源使用百分比，暴露为prometheus的exporter格式，进行yarn队列资源监控

整合上述VBA代码实现在Word文档中选择所有英文字体（西文字符）并设置为绿色的功能

最新资源

深度学习yolov5模型训练使用模型参数-yolov5权重.pt文件