- 博客(13)
- 资源 (10)
- 收藏
- 关注
原创 小记python处理excel
openpyxl其实也可单独用,而且pandas.read_excel只读取单元格的‘值’,不包含颜色字体边框批注图片等内容。data_only=True 如果单元格里是公式,返回计算后的值,如果data_only=False返回公式字符串,如“=SUM(A1:A3)”print(cell.font.color.rgb) # 字体颜色。print(cell.fill.fgColor.rgb) # 背景色。所以可以先用pandas读数据,再用openpyxl补充信息样式。
2025-08-27 16:03:18
199
原创 欧拉图与哈密顿(Hamilton)图--到序列组装
一个k-mer除第一个碱基,后面的序列和另一个k-mer除最后一个碱基,即从开头到倒数第二各碱基之间如果序列一样,则这两个k-mer 之间存在一条有向边。一般read长度为100bp的话,用的k-mer长度通常是55 k-mer,即一个read可以分成46个相互重叠的k-mer。当时就是把基因组打碎成很多段,一段一段的测序,然后将所有片段根据相互重叠的区域拼接起来称为完整的基因组序列。无向图G具有欧拉通路的条件:当且仅当G无奇度顶点(回路)或有两个奇度顶点(为欧拉通路的端点)。具有欧拉回路的图称为。
2025-08-17 23:39:39
247
原创 Mixture-of-Recursions, tokenization, embedding
于是让这个词汇表的初编码的热键向量乘以987000×embed size 的矩阵,做了映射之后其在空间的位置即可反应其语义的相似性,并且原来需要987000维向量编码每个字也变成了稠密矩阵中embed size长度的向量作为该字的代表。注意层,但每一层都有独立的参数导致大量的信息和计算的冗余,于是发展出了递归Transformers架构,对中间层使用递归策略,让多个递归层共享使用相同的参数。自注意力机制的核心是嵌入了位置向量的Q,K,V矩阵,transformer就是通过堆叠多个固定深度的自。
2025-07-31 15:35:40
418
原创 研发笔记(七)简单看一下机器学习--决策树到随机森林
虽然深度学习也属于机器学习,但是一般说机器学习指的是除深度学习以外的传统的旧的机器学习算法。sklearn.tree.DecisionTreeClassifier(criterion=’gini/xxx’)中有C 4.5 C4.5C4.5 什么的,使用的是增益率准则,先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。随机森林是多个决策树的集合,每个树有各自的标准并且每棵树用,例如n=百分之八十的样本,部分数据集而非全部数据集N训练,最终少数服从多数得到最终的判定结果。
2025-07-27 12:43:29
351
原创 统计学习笔记 生物基因组学应用(一)
生物信息基因组大数据处理,经常会用到numpy, panda 包和pysam包,panda包也是很多大数据及AI工作中常用的包,所以有必要对些常用数据处理函数,实现了什么,数理逻辑怎样进行直观易理解的整理供查询。array的reshape()函数如果有-1,比如encd.reshape(-1,1)会生成列数为1,填充进去之后,就是多少行二维数据就是多少行1列。LabelEncoder的fit_transform()将类别转为整数,比如,DNA碱基序列(只有四种)转为0,1,2,3。
2025-07-01 23:22:21
886
原创 学习笔记(五) 了解Transformer原理与AI应用的RAG(langchain)构建私有知识库
FNN前馈神经网络的固定输入节点数量是固定的,为了更适于翻译这种输入文本长度变化的序列转导任务,出现了RNN循环神经网络,如下图,可以模拟人类说话一个字一个字按时间顺序的过程。将所以事物都映射维向量存储到向量数据库,对每个‘字’,‘词’,‘图像’等非结构化的数据都定义了一个高维向量,这样就把语言文字转化为了可计算的数学量,与上篇讨论的用向量表示文章一样,语义相近的文本或单词对应的向量也相近。例如,这里的“水”不是和‘液体’,‘油’,‘喝的’ 等词义相近的名词,而是修饰课程怎么样的形容词。
2025-06-04 16:01:26
765
原创 学习笔记 <数学之美>的文本处理和pagerank到SVD(四)
我觉得杂志的影响因子算法可以考虑文章被引用的时间因素,即当风潮过去后事情区域客观而仍被引用的文章可能更有基础性贡献,时间越长反而会上扬或者沉默速率相对别的跟风文章变慢的,应该比大团队认为运作刷引用的价值更高。那么再查找相关的网页,最简单的想法是,包含这些词频率高的网页相关度越高,于是计算所有网页的这些词的词频TF, 但是有些词的信息量大,比如‘大模型’比‘应用’这个词重要,有些词比如‘的’这种词几乎没有语义,所以用TF·IDF计算每个网页的这三个词的TF-IDF的和,∑TF·IDF 作为相关性的排名。
2025-05-27 15:56:26
756
原创 统计学习笔记 <数学之美>贝叶斯网络内容校正(三)
他这个箭头指向的是原因。贝叶斯图可以看成是马尔科夫链推广到有向图的结果,一般都假定一阶,即与只于前一个结点(即父结)点有直接关系,一般表示都是父结点(xt)指向下一结点(xt+1),即指向的是导致的结果,或下一个状态。第二,图中表头按照红色修正的标记更好理解一点,家族病史和高血脂对应的是下面第一列的四个 “有,无”,并且圈中应为无。《数学之美》是一部非常不错的书,以连贯的思维勾勒出包括自然语言处理,一直到到第三版增加了比特币密码学合深度学习的原理,可以快速了解一些技术,至少对多年前的人们来说。
2025-03-30 23:41:57
312
原创 python类变量与实例变量 小记
可见,如果有xxx类变量的话,self.xxx变量 所指的是哪一个取决于__init__()函数中是否有self.xxx的声明,如果没有,则这个self.xxx就是类变量本身。
2024-09-22 20:50:56
304
原创 统计学习笔记 生物基因组学应用(二)
这篇文章给了一个实际的例子,用神经网络预测一段序列当中的motif, 分割成2000小段序列,每段50bp,实验已知每段是否包含motif 比如增强子,标记为0、1,分成训练集和预测集进行验证,最后解释,实际真实的序列是(CGACCGAACTCC。先对数据编码,一般对四种碱基编码为:A [1,0,0,0],T [0,0,1,0],C [0,1,0,0] ,G [0,0,0,1]#arrays[0], arrays[1], arrays[2]进行堆叠,所以结果与原始数组一样。
2024-06-08 22:43:56
789
原创 数据拟合平滑样条问题
R里面有平滑样条函数,一条命令就好了smooth.spline()比如我们做基因组测序数据时需要将dosage对GC进行校正,那么在R中做GC校正就相当简单:d <- read.table(flex, colClasses = c("numeric", rep("NULL",4), "numeric", "numeric"))#其中设定为numeric的三列为纯数字染色体号、覆盖...
2019-10-30 00:07:01
1753
原创 恢复正在运行的脚本到文件
当你的脚本已经提交后台运行, 而你却误删了该脚本,不要惊慌,只要他还在运行就能恢复出来。很简单首先ps aux|grep jiaoben.shbioinfo 1636 0.0 0.0 6380 692 pts/1 S+ 16:38 0:00 grep jiaoben.shbioinfo 80790 0.0 0.0 9236 1224 p
2013-06-25 16:46:55
773
2
原创 win7下安装linux双系统故障排除
原先是win7的系统,准备做成win7 linux双系统,于是随便在网上找了个教程开始安装http://www.linuxidc.com/Linux/2012-11/73500p2.htm下载easybcd2.2 ubuntu12.10 iso镜像文件。刻录了ubuntu(似乎无法从iso硬盘镜像安装)安装完ubuntu,安装过程没问题,重启准备看看双系统,重启之后发现引导界面变成了g
2013-05-16 21:21:52
1154
StartIsBackPlus_setup.exe
2019-10-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人