
👁️计算机视觉CV
文章平均质量分 94
这一部分想介绍一些有趣的计算机视觉的项目,分享我在学习过程中的一部分又一部分知识,这些项目可以用来做小项目或者来体验一些最新的学习知识,希望对你们有帮助,主要会用pytorch和tensorflow来尝试进行学习
风信子的猫Redamancy
在校本科大学生 B站up小白风信子的猫Redamancy 个人博客地址: https://kedreamix.github.io/
2022第十三届蓝桥杯PythonB组省一等奖,以及国赛一等奖
2022年第十二届MathorCup高校数学建模挑战赛 研究生组 二等奖
对计算机视觉,人工智能,以及机器学习等方面感兴趣
放弃不难 但坚持一定很酷
成功的法则极为简单,但简单并不代表容易
希望自己在这条路上,不孤单,不言弃,不言败
Stay Hungry,Stay Foolish
有时候没有及时回私信等等,可以发邮件咨询,[email protected],你们的问题我都会认真看和回答的
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
探索元宇宙的未来:数字人对话系统 - Linly-Talker —— “数字人交互,与虚拟的自己互动”
最后说一下我想做什么吧,其实我一直把这个数字对话系统趋于实时化,最近也看到相关的项目有做音频和视频流式的东西,我也在不断的学习中,希望也不断的学习,不断的超越自己。最后也提一下,我做了一个个人博客,后续也会放出来我博客的笔记,和知乎同步更新应该哈哈,大家也可以多关注一下,一起学习交流。Kedreamix:“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来2 赞同 · 3 评论文章。原创 2024-01-27 21:36:43 · 1688 阅读 · 0 评论 -
数字人对话系统 Linly-Talker(已加入Qwen和GeminiPro加强对话+上传任意图片的数字人)
Linly-Talker是一个将大型语言模型与视觉模型相结合的智能AI系统,创建了一种全新的人机交互方式。它集成了各种技术,例如Whisper、Linly、微软语音服务和SadTalker会说话的生成系统。该系统部署在Gradio上,允许用户通过提供图像与AI助手进行交谈。用户可以根据自己的喜好进行自由的对话或内容生成。原创 2024-01-04 11:43:23 · 1794 阅读 · 0 评论 -
Pytorch CIFAR10图像分类 Swin Transformer篇
微软亚洲研究院提出的的Swin Transformer解决了这两个问题,并且在分类,检测,分割任务上都取得了SOTA的效果,同时获得了ICCV2021的best paper。Swin Transformer的最大贡献是提出了一个可以广泛应用到所有计算机视觉领域的backbone,并且大多数在CNN网络中常见的超参数在Swin Transformer中也是可以人工调整的,例如可以调整的网络块数,每一块的层数,输入图像的大小等等。该网络架构的设计非常巧妙,是一个非常精彩的将Transformer应用到图像领域的原创 2023-12-04 11:54:30 · 3116 阅读 · 0 评论 -
数字人对话系统 Linly-Talker
Linly-Talker是一个将大型语言模型与视觉模型相结合的智能AI系统,创建了一种全新的人机交互方式。它集成了各种技术,例如Whisper、Linly、微软语音服务和SadTalker会说话的生成系统。该系统部署在Gradio上,允许用户通过提供图像与AI助手进行交谈。用户可以根据自己的喜好进行自由的对话或内容生成。原创 2023-12-07 21:20:26 · 2154 阅读 · 0 评论 -
数字人知识库:Awesome-Talking-Head-Synthesis
这份资源库整理了与生成对抗网络(GAN)和神经光辐场(NeRF)相关的论文、代码和资源,重点关注基于图像和音频的虚拟讲话头合成论文及已发布代码。论文合集及发布代码整理。✍️大多数论文链接到“arXiv”或学术会议/期刊的PDF。但是,一些论文可能需要学术许可才能查看。这个Awesome Talking Head Synthesis项目将持续更新 - 欢迎Pull Request。如果您有任何论文缺失、新增论文、关键研究人员或错别字建议,请编辑提交PR。您也可以打开Issue或直接通过电子邮件联系我。原创 2023-12-07 17:13:58 · 2036 阅读 · 0 评论 -
“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来
你是否曾经幻想过与自己的虚拟人交互?现在,使用,您可以将自己的图像、音频和视频转化为一个逼真的数字人视频,与其进行人机交互。是一种基于深度学习框架的数字人生成工具,基于Paddle的许多套件,它可以将您的数字图像、音频和视频合成为一个逼真的数字人视频。除此之外,还支持进一步的开发,例如使用自然语言处理技术,将数字人视频转化为一个完整的人机交互系统,使得您能够与虚拟的自己进行真实的对话和互动。使用,您可以将数字人视频用于各种场合,例如游戏、教育、虚拟现实等等。P。原创 2023-05-12 17:13:43 · 1831 阅读 · 1 评论 -
基于CIFAR数据集 进行 MAE实现及预训练可视化 (CIFAR for MAE,代码权重日志全部开源,自取)
基于CIFAR数据集 进行 MAE实现及预训练可视化 (CIFAR for MAE,代码权重日志全部开源,自取)MAE for CIFAR,由于可用资源有限,我们仅在 cifar10 上测试模型。我们主要想重现这样的结果:使用 MAE 预训练 ViT 可以比直接使用标签进行监督学习训练获得更好的结果。这应该是自我监督学习比监督学习更有效的数据的证据。原创 2023-04-21 14:27:20 · 6660 阅读 · 21 评论 -
基于计算机视觉手势识别控制系统YoloGesture (利用YOLO实现) 有详细代码+部署+在线服务器尝试+开源可复现
Streamlit在线服务器体验网址: https://kedreamix-yologesture.streamlit.app/HuggingFace在线服务器体验网址:https://huggingface.co/spaces/Kedreamix/YoloGesture1、 了解项目研究的背景以及其意义,学习其中的创新点和科研价值。2、 使用python语言对项目中的代码进行编写。研究项目源代码,理解项目工程的代码结构、原理及其功能。3、 学习深度学习算法。理解卷积神经网络的相关概念原创 2023-04-21 19:43:13 · 5133 阅读 · 28 评论 -
Pytorch CIFAR10图像分类 ZFNet篇
首先简单介绍一下ZFNet吧,ZFNet来源于2013的Matthew D. Zeiler和Rob Fergus的Visualizing and Understanding Convolutional Networks论文,为什么叫ZFNet也很简单,作者的两个名的首字母加起来就是啦,这里也给出论文地址,有兴趣可以看看论文在 2013 年 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 中,ZFNet 比 AlexNet 有了显着改进,成为众人瞩目的焦点。原创 2022-12-19 12:24:44 · 948 阅读 · 2 评论 -
【学习打卡02】可解释机器学习笔记之ZFNet
首先简单介绍一下ZFNet吧,ZFNet来源于2013的Matthew D. Zeiler和Rob Fergus的Visualizing and Understanding Convolutional Networks论文,为什么叫ZFNet也很简单,作者的两个名的首字母加起来就是啦,这里也给出论文地址,有兴趣可以看看论文在 2013 年 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 中,ZFNet 比 AlexNet 有了显着改进,成为众人瞩目的焦点。原创 2022-12-15 22:50:09 · 982 阅读 · 0 评论 -
基于PaddleOCR的集装箱箱号检测识别
国际航运咨询分析机构 Alphaliner 在今年 3 月公布的一组数据,2021 年集装箱吞吐量排名前 30 的榜单中,上海港以 4702.5 万标箱的「成绩单」雄踞鳌头。较上一年同期,上海港集装箱吞吐量增长 8.1%与最近的竞争对手新加坡拉开了近 1000 万标准箱的差距全球百大集装箱港口,更是在 2021 年共完成集装箱吞吐量 6.76 亿 TEU。**如此大规模的集装箱数量,使得箱号识别的压力骤增,**传统的由人对集装箱号进行识别记录的方式成本高、效率低,运营条件落后。随着经济和社会的发展,在港口经原创 2022-11-22 21:00:59 · 2520 阅读 · 1 评论 -
漫画风格迁移神器 AnimeGANv2:快速生成你的漫画形象
趁着有空的时间,给大家介绍一些有趣的项目吧,比如这个漫画风格迁移神器 AnimeGANv2,可以快速生成自己的漫画形象原创 2022-11-21 09:00:00 · 13594 阅读 · 0 评论