Perl编程

本文介绍Perl编程的基础优势,包括强大的文本处理能力、快速上手特性、丰富的公共模块资源,以及如何通过示例程序操作文件和处理变量。深入讲解了文件处理技巧,如读取特定内容、统计基因序列的GC含量和长度,展示了Perl在生物信息学领域的应用潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Perl编程优势
1.强大的文本处理能力;
2.快速上手;
3.借鉴其它语言优点;
4.大量的公共模块资源。
二、文件操作&变量的概念
1.第一个perl程序的编写

vim 1.hello.pl

2.完整的程序格式

#!/usr/bin/perl -w use strict
#An example of Perl print "Hello World\n"

/usr/bin/perl 代表的是perl在程序当中的安装路径
-w use strict代表的是提示错误信息
#开头没有!代表的是注释说明作用,不是代码。
3.文件2.readFile.pl的具体操作
(1).test.fa中的文件信息

>t00001 953571
TGTATAGTT
>t00002 781632
TAGCTTATCAGACTGATGTT
>t00003 657683
ACTCGACGCGATATACGTG

(2).具体的函数

#!/usr/bin/perl -w use strict
#Read files
my $file="test.fa";
open(FH,$file) or die $!;
while(<FH>){
        print $_;
}
close FH;

在这里插入图片描述
3.常见的变量赋值
在这里插入图片描述
三、文件处理
1.文件信息处理一

#!/usr/bin/perl -w use strict
#Read files
my $file="test.fa";
open(FH,$file) or die $!;
while(<FH>){
 		#当读取到某行,匹配行首(^)有">"时,  则跳过这一行不读。 
        if($_=~/^>/) {next;} 
        print $_;
}
close FH;

文件程序的运行结果

lhj@lhj-virtual-machine:~$ vim 3.readSeq.pl 
lhj@lhj-virtual-machine:~$ perl 3.readSeq.pl 
TGTATAGTT
TAGCTTATCAGACTGATGTT
ACTCGACGCGATATACGTG

设计的知识点
正则表达式
正则表达式是在标准格式下,计算机能够匹配的一种模式。
符号: =~//(//内是匹配的内容) =~表示匹配
在这里插入图片描述
2.文件信息处理二
(1).统计GC含量

#!/usr/bin/perl -w use strict
#Read files
my $file="test.fa";
open(FH,$file) or die $!;
my $G_num=0;
my $C_num=0;
my $bases=0;
while(<FH>){
        if($_=~/^>/) {next;}
        #分别计算文件每一行中碱基G,C,以及所有碱基的数目。
        if(/C/) {$C_num+=1;}
        if(/G/) {$G_num+=1;}
        #length($_),计算当前行的长度,这里即每一行的碱基数目。
        $bases+=length($_);
}
close FH;
my $GC=($G_num+$C_num)/$bases;
#printf是直接打印双引号中的所有内容
#sprintf则是对于变量进行格式化转变。
$GC=sprintf"%0.2f",$GC;  #保留计算结果小数位后两位。
printf "GC content is:$GC\n";

程序运行结果为:
在这里插入图片描述
(2).统计每一行基因序列的长度

#!/usr/bin/perl -w use strict

my $file="test.fa";
my %hash;
my $id=0;
open(FH,$file) or die $!;
while(<FH>){
        chomp;#代表将每一行后的换行符去掉 
        if($_=~/^>/) {next;}
        #将行的ID和序列长度一一对应存在哈希表%hash
        $hash{$id}=length($_);
        $id++;
}
close FH;
foreach my $k(sort keys %hash){
		#按照ID(sort keys),输出hash。
        print $k,"\t",$hash{$k},"\n";
}

代码结果:
在这里插入图片描述
涉及的知识点:

#!/usr/bin/perl -w 
use strict;
#Hash example.
#定义hash时,采用的()切记!
my %hash=(
        "Alice"=>100,
        "Bill"=>99,
        "Cindy"=>79
);
#同数组类似,用foreach循环对hash来读取每个元素。
#keys hash代表的是hash中所有key的集合,每次循环赋值给$k.
foreach my $k(sort keys %hash){
        print $k,"\t","$hash{$k}","\n";
}
#读取hash中Alice对应的value值100,表示为$hash{"Alice"}.
print "\nAlice's score is:",$hash{"Alice"},"\n";

在这里插入图片描述
程序的运行结果:
在这里插入图片描述
(3).代码操作的文件从命令行输入

#!/usr/bin/perl -w use strict
#Read files
my $file=shift;
open(FH,$file) or die $!;
while(<FH>){
chomp;
        my @a=split(/\s+/,$_);
        if($a[14]<0.5){
                print $a[0],"\t",$a[2],"\t",$a[5],"\t",$a[14],"\n";
        }
}
close FH;

输入文件为SOAPsnp.out
在这里插入图片描述
涉及的知识点:
数组是可以存储多个变量元素(包括字符串、数组),以@为标示符。

数组表示方法:
@bases=("A","C","G","T")         @bases=qw(A C G T)
@numbers=(1,2,3,4,5,6,7,8,9)     @numbers=(1..10)

数组元素表示:
$base[0]="A"

在这里插入图片描述
三、Perl中 调用其它软件
1.比对、基因分析、功能注释
2.使用perl调用其它软件的意义
在这里插入图片描述
数据过滤、比对、富集分析、突变检测分析这几个模块,如果要组成一个pipeline一个流程,则需要使用perl将相关的脚本、软件(bwa、soapSNP、GTAK、Samtools)连接起来。
具有如下功能:连接各个模块的功能形成一个pipeline流程,处理这些通用的软件(bwa、soapSNP、GTAK、Samtools),得到下一步的结果。
补充知识点:在linux下运行R
(1).R的代码

#! /usr/lib/R/bin/Rscript --vanilla
c<-scan("5.lengthDist.out")
hist(c)

#options:默认–restore – save --no-readline;–help 查看帮助信息;–version 查看R版本;–slave只打印R脚本的输出,而不显示脚本具体执行情况;–no-timing 去除输出文档结束的运行时间输出。
(2).终端赋予执行权限
$ chmod +x test.r
(3).终端执行脚本
Rscript test.r
如果需要后台挂起可以使用nohup命令
nohup Rscript ./test.r &

在perl下运行R
代码为:

#!/usr/bin/perl -w 
use strict;
system("R <test.R --vanilla");

在这里插入图片描述

PERL语言编程Perl 是一种能完成任务的语言。 当然,如果你的工作就是写程序,那么从理论上来讲,你可以使用任何“完整”的计算机语言来完成任务。但是从我们的经验来看,计算机语言的区别很大程度上不在它能干什么,而是在它做事情的时候是否简单。从一个极端来说,那些所谓的第四代语言做某些事情的时候相当容易,但是做其它一些事情的时候几乎不可能。从另外一个极端来看,那些所谓的工业级的语言在做任何事情的时候都几乎一样困难。 Perl 是不同的语言。从一开始,Perl 就设计成可以把简单工作简单化,同时又不失去处理困难问题能力的语言。 那什么是“简单工作”呢?当然就是那些你每天都要干的。你需要一种可以很容易操作数字,文本,文件和目录,计算机和网络,特别是程序的语言。这种语言应该很容易运行外部的程序并且扫描这些程序的输出获取感兴趣的东西。而且它还应该很容易能把这些你感兴趣的东西交给其它程序做特殊的处理。当然,这种语言还应该很容易在任何现代的操作系统上可以移植地编译和运行。 Perl 做到了上述所有需求,甚至更多。 Perl 最初是当做一种 Unix 的胶水语言设计的,但是她早就移植到大多数其它操作系统里了。因为 Perl 几乎可以在任何地方运行,所以 Perl 可以说是当今最具有移植性的编程环境。要想写可移植的 C/C++ 程序,你得在程序里加上一大堆 #ifdef 标签来区分不同的系统。要想写可移植的 Java 程序,你必须理解每种新的 Java 实现的特质。要想写可移植的 shell,你可能要记住每条命令在每种操作系统上的语法,走运的时候你可能可以找到一些公共的东西。而要想写可移植的 Visual Basic 程序,那么你只需要对“移植”有个更灵活的定义就可以了。 我们很高兴的是 Perl 避免了所有这些问题,同时还保留了这些语言中的许多优点,同时还有一些自己的特色。Perl 的特色来自许多方面:它的特性集的工具,Perl 社区的创造性,以及开源运动的大环境。不过,许多这些特性都是混合的东西;Perl 的身世复杂,它总是把事物看成是优点的不同方面,而不是弱点。Perl 是“背黑锅我来”的语言。如果你觉得自己陷入一团乱麻之中,非常渴望自由,那么请使用 PerlPerl 是跨文化的。Perl 的爆炸性增长很大程度上是因为那些前 Unix 系统程序员的渴望,他们希望从他们的“老家”带着尽可能多的东西。对于他们而言,Perl 是可移植的 Unix 文化蒸馏器,是"此路不通"的沙漠中的绿洲。从另外一个角度来看,Perl 还可以从另外一个方向运转:在 Windows 上工作的 web 设计者通常会非常开心地发现他们的 Perl 程序可以不加修改地在 Unix 服务器上跑。 尽管 Perl 在系统程序员和 web 设计师中间非常流行,但这只是因为是他们最早发现 Perl 的,Perl 可以用于更广泛的用途。从 Perl 最早的文本处理语言开始,它已经发展成为一种非常复杂的,通用的编程语言,以及完整的开发环境,包括调试器,调节器,交叉引用,编译器,库,语法提示编辑器,以及所有其它“真正”的编程语言所具有的所有挂勾,只要你需要。当然这些东西都是让我们可能处理难的问题的东西,而且很多其它语言也可以做到这一点。Perl 之所以成为 Perl 是因为它从来不会因为保持简单事情简单化而丢失其他方面的特性。 因为 Perl 既强大又好用,所以它被广泛地用于日常生活的方方面面,从宇航工程到分子生物学,从数学到语言学,从图形处理到文档处理,从数据库操作到网络管理。很多人用 Perl 进行快速处理那些很难分析或转换的大批量数据,不管你是处理 DNA 序列,网页,还是猪肚皮的未来都无所谓。实际上,在 Perl 社区有一个笑话就是,下次股市大崩盘就很有可能是呢个家伙写的脚本里头有臭虫造成的。(不过,乐观点来看就是,任何还在失业的股票分析师仍然有可以利用的技巧。) Perl 的成功有许多原因。Perl 早在开源软件的名字出现之前就已经是一个成功的开源项目了。Perl 是自由的,并将永远自由下去。你可以在任何合适的场合使用 Perl,只需要遵守一个非常自由的版权就可以了。如果你在从事商业活动并且还想使用 Perl,那么用就是了。你可以把 Perl 嵌入到你写的商业软件中而不需要支付任何费用也没有任何限制。如果你碰上一个 Perl 社区解决不了的问题,那你也还有最后的一招:源程序本身。 Perl 社区不会在“升级”的伪装下租给你它们的商业秘密。而且 P
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值