
读书笔记
文章平均质量分 76
穆易青
用大模型思维颠覆传统学习生信路径
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025.07.22【BUG记录】|标准输出和标准错误的合并写法详解
本文详细介绍了Linux Shell中标准输出(stdout)与标准错误(stderr)的重定向技巧。主要内容包括:1) 解释标准输出(stdout)和标准错误(stderr)的区别;2) 介绍基本重定向写法;3) 重点讲解合并重定向的正确语法"command > all.log 2>&1";4) 指出常见错误写法;5) 提供多个实用示例;6) 介绍tee命令实现同时输出和保存日志。文章强调重定向顺序的重要性,并总结对比了不同场景下的重定向写法,帮助读者有效调试脚本、原创 2025-07-22 11:02:50 · 568 阅读 · 0 评论 -
2025.07.04【服务器】|使用万兆网卡提升服务器间互联速度,实现快速数据传输
万兆网卡(10GbE, 10 Gigabit Ethernet)是目前广泛应用于高性能计算、数据中心、存储系统等场景中的高速网络接口。相比于传统的千兆网卡(1GbE),万兆网卡提供了10倍以上的带宽,能够大大提高数据传输速度。万兆网卡的应用不仅限于高速数据传输,它还可以有效减少网络延迟,提升大规模并发数据流的处理能力。无论是文件传输、虚拟化应用还是高性能计算,万兆网卡都能显著改善网络性能。原创 2025-07-04 11:26:25 · 1162 阅读 · 0 评论 -
2025.06.30【L0知识整合】|近期生信+AI技术盘点
近年来(2022-2024),生物信息学与AI融合加速发展,涌现出多个创新方向。AI驱动的多组学分析平台(如Deep Genomics、百图生科)利用深度学习处理基因组数据;单细胞组学领域(Parse Biosciences)应用AI提升数据分析精度;蛋白质预测(Helixon)基于AlphaFold2模型取得突破;临床组学(Tempus)实现AI辅助诊疗决策;生信SaaS平台(Bioturing)提供零代码分析服务;药物发现(Insilico Medicine)采用生成式AI设计新分子;大模型技术(Bio原创 2025-06-30 14:25:09 · 1031 阅读 · 0 评论 -
2025.06.27【技术观察L0】AlphaGenome:DeepMind推出的全新AI基因组解读平台
Google DeepMind推出AlphaGenome AI平台,革新基因组学研究。该平台采用CNN+Transformer混合架构,能处理长达100万碱基对的DNA序列,同时预测基因起止点、RNA表达、染色质可及性等多种分子属性。其核心突破在于单一模型实现多模态分析,并提供变异效应高通量评估,在24/26项任务中超越现有最佳模型。AlphaGenome已开放API预览版,将助力疾病机制研究、合成生物学及基础基因组学探索,为精准医学带来新工具。原创 2025-06-27 12:15:10 · 1102 阅读 · 0 评论 -
2025.06.18【转录组】|Ribo-seq/small RNA数据分析:rRNA和smRNA比对率统计全流程
本文介绍了一种自动化统计rRNA/smRNA比对率的方法,用于评估Ribo-seq或small RNA测序数据的质量。主要内容包括:分析原理(比对率定义、参考序列来源)、实践流程(构建索引、比对统计)以及结果可视化方法。通过Python和R脚本实现自动化处理,可生成汇总表格和柱状图。比对率结果能反映样品污染程度,建议控制在20%以下。该流程有助于快速评估测序质量,为后续分析提供可靠依据。文中还提供了常见问题解决方案和脚本示例,适用于生物信息学标准化质控环节。原创 2025-06-18 16:24:00 · 1042 阅读 · 0 评论 -
2025.06.17【WGS】|多样品VCF文件中每个样品SNP数统计方法详解(含代码与注释)
摘要:本文介绍了一种从合并后的VCF文件中统计每个样品SNP数目的方法。通过解析VCF文件中的GT字段,排除纯合参考(0/0)和缺失(./.)的基因型,准确计算各样本的SNP位点数。文中提供了完整的Python脚本,利用bcftools工具高效处理大规模VCF文件,并支持输出SNP统计结果。该方法适用于群体遗传学和RAD-seq等高通量测序数据分析的质控环节,还可扩展为统计杂合/纯合SNP等进阶需求。脚本使用简单,只需输入VCF文件即可生成样本-SNP数目的统计报表。原创 2025-06-17 17:37:59 · 829 阅读 · 0 评论 -
2025.06.17【BUG】|多样品VCF文件合并技巧及注意事项(以bcftools为例)
本文介绍了使用bcftools工具合并多个VCF文件的标准流程与实用技巧。主要内容包括:1) 提供两种合并方法(直接合并和文件列表合并);2) 强调合并前的准备工作,如文件格式检查、样本名唯一性验证;3) 分析常见报错(如重复样本名、缺少索引)的解决方案;4) 推荐自动化脚本工具用于格式转换、重复检查和统计;5) 提供合并后的格式转换与统计方法。文章特别提醒合并前需确保VCF文件为bgzip压缩格式并建立索引,使用文件列表可避免误操作,并分享了配套Python脚本提升分析效率。原创 2025-06-17 17:00:32 · 1007 阅读 · 0 评论 -
2025.06.16【Ribo-seq】|sORF翻译能力预测:ORFscore计算与解读
ORFscore是评估开放阅读框(ORF)翻译活性的关键指标,通过分析Ribo-seq数据中核糖体足迹的分布特征来量化翻译活性。本文系统介绍了ORFscore的计算原理和实际应用。ORFscore计算基于三碱基周期性和读段分布特征,公式为标准化读段分布的方差值。分析流程包括数据准备、ORF信息提取、ORFscore计算及结果解读,并提供质量控制方法。ORFscore结果可用于新ORF发现和翻译效率分析,但需注意数据质量控制和多维度验证。典型阈值设定为:ORFscore>0.5表示高可信度翻译ORF,&原创 2025-06-16 10:52:54 · 1061 阅读 · 0 评论 -
2025.06.16【转录组】|Ribo-seq数据流程详解(二 基因组比对)
本文详细介绍了Ribo-seq数据分析中的比对流程,包括环境准备、STAR索引构建、比对参数设置及结果统计可视化。通过samtools和R脚本实现比对质量评估,提供常见问题解决方案和关键指标解读。该流程强调比对参数优化和质量控制,为后续翻译组学分析奠定基础。原创 2025-06-16 10:38:09 · 1171 阅读 · 0 评论 -
2025.06.12【3D曲线图】|用Python绘制DNA甲基化3D曲线图(以CpG位点为例)
本文介绍了利用Python matplotlib库绘制3D曲线图可视化DNA甲基化数据的方法。文章以CpG位点甲基化数据为例,展示了从数据准备到3D图形生成的完整流程,包含代码实现和结果解读。通过X轴(CpG位点)、Y轴(组织类型)和Z轴(甲基化百分比)的三维展示,能够直观比较不同组织或疾病状态下的甲基化模式差异。这种可视化方法有助于发现甲基化水平的区域性变化和分组特征,为生物医学研究提供重要线索。最后还提供了图形保存和参数调整的建议,便于读者根据实际需求应用。原创 2025-06-12 16:04:57 · 635 阅读 · 0 评论 -
2025.06.11【Ribo-seq】|用CPAT预测sORF序列的编码潜能
摘要:本文介绍了使用CPAT工具预测sORF编码潜能的方法。sORF(small Open Reading Frame)在基因组中广泛存在且具有重要功能。文章详细讲解了CPAT安装、物种模型下载、sORF核酸序列准备(需拼接后的ORF序列)等步骤,并提供了Python示例脚本。运行CPAT后需重点关注"Coding_prob"值(人类阈值推荐0.364)。作者强调必须使用拼接后的ORF序列而非基因组区间,并解答了常见问题。最后建议结合多种工具和生物学证据综合判断结果。(148字)原创 2025-06-11 17:28:57 · 1128 阅读 · 0 评论 -
2025.06.11【Ribo-seq】|根据注释文件获取外显子及ORF序列
摘要:本文介绍从RiboCode生成的GTF文件中提取ORF外显子序列的流程。主要步骤包括:1) 使用Python脚本将GTF文件中exon条目转换为BED格式;2) 通过bedtools工具提取外显子FASTA序列;3) 根据orf_id拼接外显子获得完整ORF序列。关键点涉及GTF(1-based)到BED(0-based)的坐标转换,以及链特异性(-s)和序列命名(-name)参数设置。该流程最终输出包含ORF标识和基因组位置信息的FASTA序列,为后续ORF分析提供基础数据。(149字)原创 2025-06-11 17:26:46 · 339 阅读 · 0 评论 -
2025.06.09【RNA-seq】|逆转录元件(retrotransposon)表达分析全流程详解
逆转录元件(Retrotransposon)是一类能够通过“复制-粘贴”机制在基因组中移动的转座元件。它们首先将自身DNA转录为RNA,再通过逆转录酶反转录为DNA并插入到基因组新位置。 逆转录元件广泛存在于真核生物基因组中(如人类基因组约40%为转座元件),对基因组进化、基因调控、疾病发生等具有重要意义。原创 2025-06-09 14:37:13 · 830 阅读 · 0 评论 -
2025.06.09【读书笔记】|PromptBio:让生信分析更简单的AI平台
PromptBio 最大的特色就是“对话式智能体”。什么意思呢?就是你可以像和AI聊天一样,告诉它你的需求,比如“帮我分析一下这组转录组数据”,它就能自动帮你完成数据管理、处理、分析等一系列操作。总的来说,PromptBio 是一个非常适合生信初学者的平台。它用AI和自动化技术,把复杂的生信分析变得简单易用。无论你是刚入门,还是想提升效率,都可以试试这个平台。如果你对生信分析感兴趣,或者正在为数据处理发愁,不妨去PromptBio 官网看看,说不定会有意想不到的收获!原创 2025-06-09 14:21:40 · 730 阅读 · 0 评论 -
2025.06.07【Ribo-seq】|RiboCode定量命令ORFcount结果输出为0的原因与解决方案
ORFcount输出全为0,99%是因为BAM和GTF参考不一致。RiboCode_onestep用转录本BAM,ORFcount用基因组BAM。保证GTF和BAM参考一致,ORFcount才能输出真实的ORF定量结果。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。原创 2025-06-07 10:27:32 · 528 阅读 · 0 评论 -
2025.06.06【Ribo-seq】|riboWaltz:P-site定位与三碱基周期性分析流程
同学们,大家好!今天我们要学习的是riboWaltz——一款专为Ribo-seq(核糖体足迹测序)数据设计的R包,主要用于P-site定位优化和三碱基周期性分析。P-site的准确定位是Ribo-seq下游所有翻译组学分析的基础,riboWaltz为我们提供了系统、可视化、易用的解决方案。P-site定位优化:自动识别不同长度RPF的最佳P-site偏移量。三碱基周期性分析:可视化RPF在CDS、UTR等区域的分布,评估数据质量。多样本/多条件支持:可同时处理多个样本,便于批量分析和对比。原创 2025-06-06 16:03:39 · 1021 阅读 · 0 评论 -
2025.06.06【Ribo-seq】|RiboCode:基于Ribo-seq数据的全基因组翻译ORF检测工具详解与实战流程
大家好!今天我们要学习的是RiboCode——一个专为Ribo-seq(核糖体足迹测序)数据设计的高质量翻译ORF(开放阅读框)检测工具。RiboCode能够帮助我们在全基因组范围内精准识别翻译事件,发掘经典CDS之外的uORF、dORF、重叠ORF等新型翻译本,极大拓展了我们对转录本翻译潜能的认知。RiboCode 是由清华大学杨学睿课题组开发的开源软件,支持Linux/Mac平台,采用Python实现。自动化流程:一条命令即可完成注释准备、P-site定位、ORF预测。高灵敏度与特异性。原创 2025-06-06 15:44:34 · 1029 阅读 · 0 评论 -
2025.05.30【转录组】|Ribo-seq数据流程详解(一 质量控制)
本文详细介绍了Ribo-seq数据的质控分析流程,重点讲解了使用fastp进行原始数据质控的关键步骤和参数设置。作者通过Snakemake自动化流程示例,展示了如何去除接头序列、过滤低质量reads、生成质控报告等操作。文章强调高质量的Ribo-seq数据对转录后调控和翻译动态研究的重要性,并提供了兼顾数据质量和下游分析需求的参数配置建议。该流程有助于研究人员规范高效地完成Ribo-seq数据质控,为后续分析提供可靠数据基础。原创 2025-05-30 11:23:56 · 175 阅读 · 0 评论 -
2025.05.29【Network】多组学分析:网络互作图绘制
本文介绍了使用R语言进行网络图绘制的方法与技巧。重点讲解了三个核心R包的使用:igraph用于网络图数据准备与基础绘制,ggraph基于图形语法实现高级可视化,networkD3则为网络图添加交互功能。文章涵盖了从基本概念、包安装、创建网络图对象,到自定义样式布局、添加交互性等完整流程,并提供了度分布、聚类系数等网络分析指标的计算方法。通过清晰的代码示例,帮助读者掌握生物信息学数据可视化的关键技能,为复杂数据的直观展示和分析提供实用工具。原创 2025-05-29 10:04:37 · 65 阅读 · 0 评论 -
2025.05.29【Ridgeline】多组学分析:多变量数据协同可视化
Ridgeline图(山脊图)是一种高效的多变量数据可视化工具,特别适用于生物信息学领域。本文介绍了如何使用R语言中的ridgelines包创建这种图表,通过堆叠分布曲线直观比较不同样本或条件下的数据分布。文章详细演示了从数据准备到图表生成的完整流程,包括安装包、调整参数等步骤,并以基因表达数据为例进行了案例分析。Ridgeline图能够清晰展示数据的分布特征和差异,是探索多维度数据的重要可视化方法,为生物信息学研究提供了有力支持。原创 2025-05-29 10:01:45 · 161 阅读 · 0 评论 -
2025.05.28【Choropleth】群体进化学专用图:区域数据可视化
本文介绍了使用R语言创建Choropleth地图的技巧,重点讲解leaflet和ggplot2两个包的应用。leaflet用于创建交互式地图,支持缩放和高亮显示;ggplot2则适用于制作静态地图,适合报告和演示。通过具体代码示例展示了数据加载、地图绘制和自定义选项设置。这种可视化方法特别适合展示地理分布数据,如人口密度、疾病发病率和物种分布等,为生物信息学数据分析提供了有力工具。原创 2025-05-28 14:16:56 · 1542 阅读 · 0 评论 -
2025.05.28【Parallel】Parallel绘图:拟时序分析专用图
摘要:平行坐标图是一种强大的多维数据可视化工具,特别适合展示生物信息学中的复杂基因表达数据。本文介绍了平行坐标图的核心概念和优势,并提供了实现方法:在R中使用ggplot2包创建静态图表,以及通过d3.js构建交互式可视化。教程包含详细的代码示例,帮助0基础用户快速掌握这一技术,提升数据分析能力。文章最后鼓励读者点赞关注,以获取更多生物信息学相关知识。原创 2025-05-28 14:14:37 · 721 阅读 · 0 评论 -
2025.05.27【堆叠分组条形图】分组与堆叠条形图的绘制技巧
本文介绍了使用R语言绘制堆叠与分组条形图的技巧。主要内容包括:1)堆叠条形图的特点及适用场景,特别适合展示生物信息学中的分类数据;2)通过ggplot2包的详细实现步骤,包括数据准备、基础绘图、透明度调整、图例定制和数据排序;3)演示了数据分组显示及堆叠与分组结合的绘制方法。文中配有示例代码和效果图,帮助读者掌握多种条形图变体的绘制技巧,以适应不同数据可视化需求。文章最后鼓励读者点赞关注,以便获取更多生物信息学数据分析相关内容。原创 2025-05-27 09:49:59 · 390 阅读 · 0 评论 -
2025.05.09【Bubblemap】气泡图深入解析
本文介绍了如何使用R语言创建气泡图(Bubble map)来可视化地理分布数据。气泡图通过在地图上叠加大小与数值成比例的气泡,直观展示空间数据分布。文章详细讲解了五个实现步骤:安装必要包(ggplot2/maps)、准备含地理信息的数据集、绘制地图背景、添加气泡标记,以及最终的美化调整。这种可视化方法特别适合展示如美国各州人口分布等地理相关数据,能有效突出重要数值差异。作者还提供了完整的R代码示例,帮助读者快速掌握气泡图的制作技巧。原创 2025-05-26 10:17:40 · 932 阅读 · 0 评论 -
2025.05.26【Wordcloud】词云图绘制技巧
本文介绍了词云图在生物信息学文本分析中的重要作用。词云图通过字体大小和颜色直观展示词语频率,帮助快速识别关键主题。文章详细讲解了在R语言中使用Wordcloud和Wordcloud2包创建词云图的方法,包括安装、基本使用、参数调整(形状、颜色、布局)等。并以生物信息学文献分析为例,演示了从文本提取到词云生成的完整流程。词云图作为一种有效的文本可视化工具,能够简化复杂数据的理解,增强分析效率。原创 2025-05-26 10:16:56 · 945 阅读 · 0 评论 -
2025.05.21【直方图】直方图绘制技巧解析
它将数据分组到连续的、不重叠的区间(或“箱”)中,并以条形图的形式显示每个区间内的数据点数量。通过本文,你将学习到如何选择合适的直方图样式,以及如何调整参数以优化图形的展示效果。无论你是生物信息学领域的新手,还是希望提高数据可视化技能的专业人士,本文都将为你提供一个实用的指南。在生物信息学中,直方图是研究一个或多个变量分布的有力工具,它能够帮助我们理解数据的频率分布情况。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。绘制了表达量分布的直方图。原创 2025-05-21 10:12:19 · 1119 阅读 · 0 评论 -
2025.05.21【Scatter】散点图绘制技巧与案例
散点图是一种以平面直角坐标系为基础的图形表示方法,用于展示两个数值变量之间的关系。在散点图中,每个数据点的位置由其在两个变量上的值决定,横坐标(X轴)代表一个变量的值,纵坐标(Y轴)代表另一个变量的值。我们可以通过color和size参数来自定义点的颜色和大小。这里,将气缸数转换为因子类型,并为每个因子级别分配不同的颜色。size = 3设置了点的大小。原创 2025-05-21 10:11:03 · 1053 阅读 · 0 评论 -
2025.05.20【Density】密度图绘制
密度图通过平滑曲线展示数据点的分布情况,有助于我们理解数据的分布特征。在R中,ggplot2包提供了强大的功能来创建密度图,通过函数实现。该函数自动计算数据的核密度估计,并绘制平滑曲线。我们可以调整密度图的参数来自定义图表的外观。调整带宽(Bandwidth):带宽控制曲线的平滑程度。较小的带宽会产生更尖锐的峰值,而较大的带宽会使曲线更加平滑。geom_density(adjust = 0.5) # adjust参数用于控制带宽添加填充颜色:使用fill参数为不同的数据组添加不同的颜色。原创 2025-05-20 09:55:39 · 956 阅读 · 0 评论 -
2025.05.20【Treemap】树图数据可视化技巧
Treemap 是一种树状图,它将数据组织成树状结构,并以矩形的形式展示出来。每个矩形代表树中的一个节点,节点的大小(面积)与其值成正比。这种图表非常适合展示层次数据,因为它可以直观地显示不同层级之间的关系和相对大小。treemap函数提供了许多参数,允许我们自定义 Treemap 的外观和行为。例如,我们可以设置颜色、标签和层次深度等。# 自定义 Treemappalette = "Blues", # 设置颜色方案fontsize.title = 14, # 设置标题字体大小。原创 2025-05-20 09:34:27 · 1028 阅读 · 0 评论 -
2025.05.19【Barplot】柱状图的多样性绘制
文章介绍了如何在R语言中使用barplot函数创建不同类型的条形图,并展示了如何通过自定义颜色、边框和添加文本标签来增强图表的表现力。首先,文章从基础的单一变量条形图入手,逐步扩展到堆叠条形图和分组条形图,说明这些图表在生物信息学中用于比较不同样本或条件下基因表达量的有效性。接着,文章详细讲解了如何通过调整参数(如beside、col、border等)来定制条形图的外观,以及如何在图表中添加数值标签。最后,文章强调了掌握这些绘图技巧对于生物信息学研究人员的重要性,帮助他们更直观地解读复杂数据集。通过这些步骤原创 2025-05-19 23:20:19 · 1308 阅读 · 0 评论 -
2025.05.19【Connectedscatter】连接散点图详解
本文介绍了如何使用R语言中的ggplot2包创建连接散点图(Connected Scatter Plot),并探讨了其在生物信息学中的应用。连接散点图通过在散点图中添加连接线,能够清晰地展示数据点随时间或序列变化的趋势,特别适用于分析基因表达等随时间变化的生物信息数据。文章详细讲解了如何安装和加载ggplot2包、创建示例数据集、绘制连接散点图以及自定义图表样式。此外,还展示了如何将这种图表应用于实际的基因表达数据集,帮助读者更好地理解和分析数据。最后,文章鼓励读者点赞、关注并参与交流,以共同探索生物信息学原创 2025-05-19 23:16:21 · 1059 阅读 · 0 评论 -
2025.05.14【Cartogram】制图新风向:Cartogram绘制技巧
Cartogram是一种通过调整区域几何形状来传达数值信息的地图表示方法,特别适用于生物信息学中的数据可视化。在R语言中,使用cartogram包可以轻松创建这种图表,展示如疾病发病率或基因变异频率等地理分布数据。Cartogram的优势在于其直观性和信息丰富性,能够通过改变区域大小反映数据的重要性,但也存在失真和解释困难的局限性。通过具体示例,文章展示了如何在R中准备数据、创建和绘制Cartogram,并强调了其在生物信息学中的实际应用价值。Cartogram作为一种强大的可视化工具,为理解和分析复杂数据原创 2025-05-14 10:47:19 · 844 阅读 · 0 评论 -
2025.05.14【Sankey】Sankey图绘制秘籍
Sankey图是一种用于展示不同实体间流动的直观工具,广泛应用于生物信息学等领域。通过矩形或文本表示节点,箭头或弧线表示流动,Sankey图能清晰展示系统中的主要节点及其相互作用。在R语言中,networkD3包是绘制Sankey图的首选工具,支持自定义节点和链接颜色、宽度等。文章详细介绍了如何在R中绘制Sankey图,包括数据准备、绘图步骤及自定义选项,并以基因表达数据为例展示了实际应用。Sankey图在生物信息学中具有重要价值,能有效帮助分析和理解复杂系统中的流动模式。原创 2025-05-14 10:45:11 · 735 阅读 · 0 评论 -
2025.03.22【读书笔记】| fastq-multx:高效barcode拆分数据解决工具
在生物信息学的世界里,工具的选择至关重要。它们就像是我们探索基因奥秘时的瑞士军刀,每个工具都有其独特的功能和用途。今天,我们要介绍的这个工具,不仅仅是一个简单的程序,而是一把能够解锁生物数据深层含义的钥匙。它能够让我们从海量的数据中提取出有价值的信息,帮助我们理解生物过程的基本机制和相互关系。这个工具,就是,一个用于高效barcode去复用和demultiplex的解决方案。是一个专门设计用于处理高通量测序数据中的barcode去复用问题的工具。原创 2025-03-22 16:21:00 · 1227 阅读 · 0 评论 -
2025.03.15【L0观后感】|基因工程如何重塑“人”的定义——观桑德尔北大讲座有感
周一北京大学哲学系公众号直播了迈克尔·桑德尔教授关于基因工程伦理的讲座内容,让大家有幸在线上“近距离”听到了一场桑德尔教授的讲座。原创 2025-03-15 19:49:57 · 375 阅读 · 0 评论 -
2025.03.14【读书笔记】|GCTA工具概述
GCTA(Genome-wide Complex Trait Analysis)工具是一种用于全基因组关联研究(GWAS)的统计框架,是由西湖大学杨剑(Jian Yang)实验室开发的,它能够帮助我们评估遗传变异对复杂性状影响的重要性。本文将详细介绍GCTA工具的使用方法和在生物信息学研究中的应用。GCTA简介GCTA是一个开源软件包,主要用于基于基因组数据的遗传关联分析。它能够计算样本间的亲缘关系矩阵,进行主成分分析(PCA),并估计遗传力(Heritability)。原创 2025-03-14 15:08:17 · 1261 阅读 · 1 评论 -
2025.03.14【读书笔记】|GWAS分析神器:BOLT-LMM工具介绍与快速安装
在生物信息学领域,全基因组关联分析(GWAS)已成为揭示遗传与疾病关系的强有力工具。BOLT-LMM作为一款专为大规模样本量设计的GWAS分析工具,将极大地提高研究人员的工作效率。大家好,今天我们来聊聊一个非常强大的生物信息学工具——BOLT-LMM。它是基于线性混合模型(LMM)的全基因组关联分析(GWAS)分析工具,通过快速的方差近似方法在计算效率上实现了显著的提升。BOLT-LMM的高效性能使其成为大规模样本GWAS分析的理想选择,它将进一步推动生物信息学和遗传学研究的发展。原创 2025-03-14 14:47:20 · 594 阅读 · 0 评论 -
2025.03.13【读书报告】|Scanpy安装与使用
Scanpy 是一款基于 Python 的可扩展工具包,专为分析单细胞基因表达数据而设计。它提供了一套全面的工具,涵盖了单细胞数据分析的各个关键步骤,包括质量控制、标准化、基因过滤、变量基因选择、降维、聚类、差异表达分析、细胞排序、模拟和可视化。自 2017 年发布以来,Scanpy 凭借其强大的功能和易用性,在单细胞研究领域获得了广泛应用。截至目前,该工具已发表 2 篇正式论文和 2 篇预印本,总引用次数超过 6000 次,充分证明了其在学术界的活跃程度和影响力。原创 2025-03-13 10:39:26 · 1791 阅读 · 0 评论 -
2025.03.13【读书笔记】|kallisto:单细胞定量工具安装介绍
kallisto是一个用于转录本定量的软件工具,其独特的基于伪对齐的技术,使得在不需要传统比对的情况下,就能够快速准确地估计转录本的丰度。这种方法的主要优点包括速度快、准确性高和计算成本低。cDNA文件是kallisto分析中不可或缺的一部分,它包含了用于定量的参考转录本信息,直接影响定量结果的准确性。Kallisto 以其显著的计算速度优势,让研究人员能够更高效地处理 RNA-seq 数据,极大推动了转录组学研究的进展。原创 2025-03-13 10:25:29 · 815 阅读 · 0 评论 -
2025.03.12【读书笔记】|monocle:快速安装及使用
通过一个具体的实战案例,我们可以更直观地了解monocle工具的应用。Monocle 凭借其构建伪时间轴的能力,为我们深入理解细胞发育和分化过程提供了强有力的工具。它在识别关键基因、揭示细胞状态转变以及探索时间依赖性的表达模式等方面,具有显著优势。虽然随着单细胞技术的快速发展,涌现出许多新的分析工具,但 Monocle 依然是研究人员进行细胞轨迹分析和时间序列分析的重要选择。尤其是在以下情况下,Monocle 能够提供独到的见解:研究细胞发育过程中的动态变化识别在细胞分化过程中起关键作用的基因。原创 2025-03-12 10:39:13 · 1765 阅读 · 0 评论