- 博客(85)
- 收藏
- 关注
原创 信贷风控笔记8-解读商业银行资本管理办法笔记
3.要求:四层:最低资本要求(核心一级5%,一级6%,总的8%)/储备资本要求2.5%,0%-2.5%的逆周期资本要求/系统重要性银行附加1%/第二支柱要求(集中度风险/银行账户利率风险/流动性风险)内部估计M的方法:对于有确定现金流安排的金融工具:求和t*CFt(未来t时间段内需要支付的现金流最小值)/求和CFt(未来t时间段内需要支付的现金流最小值)违约概率分池因素:债务人类别和人口统计特征(如收入、年龄)/债项风险特征(产品和抵质押品的风险特征)/逾期信息。事件(出现重新占有过程)
2025-07-30 21:02:13
454
原创 大模型及agent开发6 OpenAI Assistant API 高阶应用 - 流式输出功能
*在这一事件中,增量更新的是大模型输出的参数`arguments`,这个参数中的内容是用于执行外部函数的,而非对“北京现在的天气怎么样?正如我们在上节课中介绍的,使用.beta.threads.runs.submit_tool_outputs方法用于提交外部工具的输出,此方法也支持流媒体输出,如果在这个阶段需要开启流媒体传输,我们就需要使用 stream=True 参数来明确指定。为了使第二个`Run`能够接续第一个`Run`的输出,关键在于两者之间需要共享第一个`Run`的`Run id`。
2025-07-11 21:15:00
714
原创 信贷风控笔记7——外部资信
数据质量:大科技公司是有数据有样本,银行等则是有样本但没有场景因此无数据,需要外部购买,小公司是无样本无数据。成因:差客户借不到/好客户比利率/好客户短期有高资金需求。报价:单价会随着采购量级的增加而下降。收费方式:查询收费和查得收费。数据形式:名单,变量,模型分。
2025-07-09 18:58:50
192
原创 大模型及agent开发5 OpenAI Assistant API 进阶应用
从结果上看,对于每个文件存储至向量数据库时所应用的切分策略,直接在vector_store对象中是看不到的,这是因为切分策略是和具体的文件做绑定的,而一个向量数据库中可以存储多个文件。将文件添加向量数据库时会自动解析、分块、嵌入文件并将其存储,所以默认的chunking_strategy字段中的type参数是auto,max_chunk_size_tokens是800, chunk_overlap_tokens是400。该工具可以处理具有不同数据和格式的文件,并生成具有数据和图形图像的文件。
2025-07-01 21:30:00
1849
原创 大模型及agent开发4 OpenAI Assistant API 基本理论与入门实战——一种功能更强大更全面的工具
而文件搜索,其实现的思路是通过自有向量数据库支持基于文件的 RAG 过程,最后对于函数调用,则是可以在各个流程中,自主决策并执行外部的自定义函数,就像我们手动实现的ReAct Agent一样,只不过,OpenAI把这个过程实现的更加强大和稳定。具体来看,Run(运行)状态,指的是将Thread中最新添加进来的Messages信息,发送给Assistant(助理)对象实例,这个Assistant对象实例中指定了使用哪个模型、它的身份是什么,它的任务目标是什么,在这样的设定下,去回答用户此轮提出的问题。
2025-06-25 20:00:00
466
原创 大模型及agent开发2、3——ReAct Agent 基本理论与项目实战
接下来,定义大模型交互逻辑接口。首先需要明确,需要执行操作的过程是:大模型识别到用户的意图中需要调用工具,那么其停留的阶段一定是在 Action:xxxx : xxxx 阶段,其中第一个 xxx,就是调用的函数名称,第二个 xxxx,就是调用第一个 xxxx 函数时,需要传递的参数。就目前的AI Agent 现状而言,流行的代理框架都有内置的 ReAct 代理,比如Langchain、LlamaIndex中的代理,或者 CrewAI这种新兴起的AI Agent开发框架,都是基于ReAct理念的一种变种。
2025-06-22 10:30:37
548
原创 大模型及agent开发1——基础知识及实现具备Funcation Calling功能的智能电商客服
('002', '羽毛球拍', '轻量级,适合初中级选手,提供优秀的击球感受', '碳纤维材质,重量85 g', '业余比赛、家庭娱乐', '尤尼克斯', 300, 30),('005', '瑜伽垫', '防滑材料,厚度适中,易于携带和清洗', '长180cm,宽60cm,厚5mm', '瑜伽、普拉提', '曼达卡', 150, 25),('004', '跑步鞋', '适合长距离跑步,舒适透气,提供良好的足弓支撑', '多种尺码,透气网布', '长跑、日常训练', '阿迪达斯', 500, 20),
2025-06-13 19:00:00
400
原创 时序模型介绍
它结合了AR模型与MA模型的思想,即关系过去对未来的影响,也关心每个时间点上的数值受到外界偶然因素的影响,因此可以应对相对复杂的时间序列数据。多步预测:如下图所示,我们将测试集上的时间分割为5段,假设t是当前的时间,我们先使用训练好的模型预测出t+d时间段的结果,将该结果加入训练集、构成全新的训练数据。但稍有区别的是,多元线性回归中每个自变量都是一列数据,要求解的标签也是一列数据,但在自回归模型中每个自变量y都是一个样本的数值,要求解的标签y也是一个样本的数值。
2025-05-26 16:27:36
1507
原创 特征筛选方法总结(面试准备15)
反之如果r1优于r2,则保留A1,停止迭代;Step 2.将这个训练后的模型带入RFE搜索过程,并设置RFE参数n_features_to_select=1,在step=1时,RFE过程将每次剔除当前数据集中最不重要的特征,然后根据输入模型的超参数再次进行模型训练,以此往复,遍历全部特征。Step 2:剔除最不重要的特征,即特征重要性计算结果最小的特征,得到特征子集A2,然后再次训练模型,得到模型结果r2,并计算剩余特征的特征重要性;训练模型,计算特征重要度,每次删除最低的几个,循环计算直到设定的个数。
2025-05-19 18:43:09
570
原创 信贷风控笔记6——风控常用指标(面试准备14)
模型上线后ks一定会下降,因为离线时只有通过客户,而拒绝样本坏客户浓度高,因此ks一定会下降。画一个TPR(误杀)和FPR(抓坏)的曲线,TPR越高,FPR越低则越好,因此图像越陡越好。算各个分箱的index=(实际占比-预期占比)*ln(实际占比/预期占比);标准:0.5-0.7效果低,0.7-0.85效果一般,0.85-0.95很好。ROC曲线:真正率(召回率)和假正率 (有对少负样本被错误地认为成正样本)正式上线:上线第一个月为预期分布;灰度上线:离线建模样本为预期分布;建模时:训练样本为预期分布;
2025-05-17 10:53:58
434
原创 信贷风控笔记5——风控贷中策略笔记(面试准备13)
策略:30天以内只拒绝极差客群(过件率>=90%):内部黑名单,反欺诈-征信及三方数据规则集(选做,使用已查询数据)-身份核验(线上人脸识别,检验是否为本人支取,防止盗刷)存量客户运营:不仅考虑风险,还要考虑客户需求、体验等因素,通过精细化的客户分层和差异化的权益调整方式,促使客户用信、提高复借比例、延长生命周期。区分方式:比如MOB3以内的是短周期(关注多头、负债、额度使用率),则MOB3-MOB12的为长周期(关注学历、工作稳定性、公积金、收入、资产、现金流、消费)分类:第一笔结束后发起第二笔;
2025-05-16 16:50:38
482
原创 信贷风控笔记4——贷前策略之额度、定价(面试准备12)
1.额度有效系数,包括:金额逾期率/户数逾期率,额度逾期率(不考虑实际逾期金额是多少,按照授信额度全部逾期看待)/户数逾期率,如果该比值大于1,则认为额度策略会让最终额度变大,此时额度策略无效。流程:确定额度范围(盖帽和托底额度)-确定主维度(风险、收入、需求)-确定调整系数(用其它维度的弱相关变量修正)-计算基础额度(对不同风险级别的客户设置不同的盖帽托底额度)-计算最终额度。如何定额度:逻辑:额度=月可支配收入/最低还款比例,因此推测月收入=信用卡平均账户额度*最低还款比例/40%0.9-1略微有效;
2025-05-15 16:08:38
778
原创 信贷风控笔记3——信贷风控模型实操(面试准备11)
一.模型设计:需要考虑模型细分,样本选取(样本排除:观察期排除和表现期排除;观察期:产品(特殊产品如学生卡)/客群(VIP)/政策(年龄/无人行/欺诈等)/风险异常(如业务风险异常波动的时点,即某个月份坏账率较大的要排掉)评价标准:F检验(检验模型的整体显著性)/t检验(检验模型各个系数的显著性)/AIC/BIC(后两个均是衡量统计模型拟合优良性的一种标准)模型复杂度增大k增大,L也增大,AIC减小,但K过大时,L增速减缓,此时AIC增大,达到过拟合,因此目标是找AIC最小的模型,降低过拟合。
2025-05-14 16:00:33
883
原创 产品经理系列2——王慧文产品课总结
第一书的SKU足够多,无论你在什么城市总有买不到的书,即便有你可能也不知道在哪,第二美国的书是非常标准化的,第三在物流仓储上书这个品类不怕压不过期不怕摔,第四早期电商购物很怕买到假货,但盗版书里的知识也是真的,第五书的客单价不算太高,第六互联网早期用户大多教育水平比较高,跟买书用户的匹配率很高。从这个选择里就看出了,亚马逊是很高明的。方法论:在产品早期的时候去问不用这个产品的人为什么不用很可能是一个无效的方法,真正有效的方法是问那些用了产品的人,这些人心里是有一定认可度的,且在使用的过程中遇到了问题。
2025-05-10 14:37:35
745
原创 CATBOOST算法总结
Depthwise 策略是一种逐层生长的方法,即每次扩展树的一层,选择当前层的所有节点进行分裂,也就是XGB的生长策略。内存管理:在处理大规模数据集时,Pool对象通过高效的内存管理和数据存储方式,减少了内存占用,提高了训练和预测的效率,特别是在使用GPU加速时。处理类别特征:CatBoost对类别特征的处理有独特的优化,Pool对象允许用户方便地指定和管理类别特征,从而提高模型的训练速度和预测准确性。防止目标泄漏:通过有序递增地计算均值,当前样本的目标变量不被用于其自身的编码,这有效地防止了目标泄漏。
2025-04-23 11:11:07
331
原创 lightgbm原理、特殊点、参数分析(面试准备10)
与之相关的是subsample_for_bin参数:subsample_for_bin:该参数表示对连续变量进行分箱时(直方图优化过程)抽取样本的个数,默认取值为200000,当实际抽样个数大于输入训练数据样本数量时,会带入全部样本进行计算。而如果boosting_type选择的是goss,则在直方图优化时会自动完成抽样,具体抽样策略是:会保留所有较小梯度的样本(即那些已经被模型很好拟合的样本),并对较大梯度的样本进行采样。因此,如果boosting_type选择的是 "goss",。
2025-04-21 18:14:34
993
原创 xgboost原理及参数分析(面试准备9)
2.在GBDT中影响力巨大的max_features对标XGBoost中的colsample_by*系列参数,原则上来说影响力应该非常大,但由于三个参数共同作用,调参难度较高,在只有1个参数作用时效果略逊于max_features。对于取值可大可小,且原则上可取到无穷值的参数(num_boost_round,gamma、lambda、min_child_weight等),一般需要绘制学习曲线进行提前探索,或者也可以设置广而稀的参数空间,来一步步缩小范围。参数sample_type:抛弃时所使用的抽样方法。
2025-04-19 10:56:42
491
原创 gbdt总结(面试准备8)
在GBDT当中,这些袋外分数的变化值被储存在属性oob_improvement_中,同时,GBDT还会在每棵树的训练数据上保留袋内分数(in-bag)的变化,且储存在属性train_score_当中。可见,虽然树的集成算法们大多共享相同的超参数,都由于不同算法构建时的原理假设不同,相同参数在不同算法中的默认值可能被设置得不同,因此相同参数在不同算法中的重要性和调参思路也不同。要注意,如果样本存在严重不均衡的状况,那我们可能会考虑不使用梯度提升树,或者先对数据进行样本均衡的预处理后,再使用梯度提升树。
2025-04-18 14:49:04
799
原创 随机森林与adaboost常考知识点总结(面试准备7)
loss:与分类的情况完全相反,在AdaBoost回归当中,我们能够使用的算法是唯一的,即AdaBoost.R2,但是在R2算法下,我们却可以选择三种损失函数,分别是"linear"(线性),"square"(平方),"exponential"(指数)原理:首先,在全样本上建立一棵决策树,根据该决策树预测的结果和损失函数值,增加被预测错误的样本在数据集中的样本权重,并让加权后的数据集被用于训练下一棵决策树。训练用的数据:bootstrap(默认True,控制是否在每次建立决策树之前对数据进行随机抽样),
2025-04-18 09:28:56
432
原创 决策树:ID3,C4.5,CART树总结(面试准备6)
主要包含两个,其一是splitter参数,当该参数取值为random时其实是随机挑选分类规则对当前数据集进行划分,其二是max_features,该参数可以任意设置最多带入几个特征进行备选规律挖掘,只要该参数的设置不是带入全部特征进行建模,就相当于是给备选特征随机划个范围,也相当于是给树模型的训练增加了一定的随机性。C4.5:一方面使得现在的树模型能够处理连续变量(此前的ID3只能处理分类变量),同时也能够一定程度提高树模型的生长速度,而C4.5也是目前最为通用的决策树模型的一般框架。
2025-04-16 18:02:36
790
原创 大模型应用实战5——大模型基础知识总结
大模型开发思路注意明确输出格式,如以{"from":"","to":""}这种 JSON 格式输出。2.多轮互动产生原因:大模型会自己发散(幻觉)产生原因:用户可以提问不同类型的事情,比如天气和季节解决方法:不要去给大模型设定好要做什么这里面,框架就要承担很重要的职责:1. 根据用户注册的函数,在首次 Prompt 中生成所有 Tool 的完整接口定义。2. 解析 LLM 的返回值,根据内容执行路由,调用对应 Tool。3. 把函数执行结果返回给大模型。
2025-03-27 08:56:58
1073
原创 KAGGLE竞赛实战2-捷信金融违约预测竞赛-part2-用lightgbm建立baseline
发现报错了Do not support special JSON characters in feature name,原因是有些列名里有特殊的字符,这是get_dummies时产生的。submission.to_csv('baseline_model_lightgbm.csv',index=False)#提交后成绩0.73。application_train.to_csv('original_application_train.csv')#保存下结果。# 定义一个函数,用于替换单个列名中的特殊字符。
2025-01-18 16:48:15
1009
原创 KAGGLE竞赛实战2-捷信金融违约预测竞赛-part1-数据探索及baseline建立
kaggle竞赛之捷信金融违约预测竞赛-part1-数据探索及baseline建立
2025-01-05 21:29:21
1622
原创 信贷风控笔记2——风控策略理论-策略生成及调优方法(面试准备4)
效果测算:逾期率下降的幅度是否大于通过率/通过率下降是否过多/收益成本角度看是否有收益,如果通过率下降要小一点可以用多维客群组合(画出逾期率和通过率的二维图来看)计算分箱下的统计指标:好坏客户占比、区间坏账率,woe,iv:0.02-0.1弱,0.1-0.3中,0.3-0.5强,辅以变量间相关性考虑。微观调控:拒绝回捞(捞某个节点拒绝的客户)/策略放松(规则cutoff的放松)/效果差的策略下线/策略替换(需要置入置出分析)方法:宏观调控:尝试更差的客群,一般定价更高,额度更低(作用较大)
2024-12-29 17:06:08
995
原创 风控模型面试常问问题(面试准备3)
一、模型样本1)风控建模的目标定义时为什么有灰样本?灰样本的定义是源于在选取的建模样本数据中,不满足好坏定义条件的剩余样本,例如表现期不足、好坏程度不够等。灰样本的设置可以有效扩大好、坏样本之间的特征差异,不参与模型拟合的训练环节,这样可以促进模型得到较好的区分度效果。在模型测试环节,灰样本则需要加入样本群体分析中,以测试模型的泛化能力。具体灰样本的定义逻辑与应用场景,需要结合实际样本情况和业务需求而定,但目的与思路是一致的。2)样本不平衡为什么对模型训练与应用效果有较大影响?当建模样本数据
2024-12-28 16:56:22
1543
原创 机器学习实战笔记44-49:集成学习中的bagging算法
控制的参数是warm_start,注意一般为false,这是交叉验证的基础,以保证每次训练的模型不会记得之前的结果。首先要写一个循环读入数据,这就需要知道数据量有多少,一般可以看kaggle说明,用数据库算,用deque读最后几列看它的索引这几种方式,靠pandas估算(用skiprows+循环来试)控制过拟合的几个参数(由严重到不严重):max_depth、max_leaf_nodes、min_sample_split、min_impurity_decrease。方差小,而泛化误差=偏差+方差+噪音。
2024-12-01 16:33:04
633
原创 机器学习实战笔记39-43树模型基础
C.控制树结构的参数:max_depth(注意是生长了几层,不是总共几层)、max_leaf_nodes、min_samples_split、min_samples_leaf、min_impurity_split、min_impurity_decrease。ID3是根据一列的不同取值做展开,一次分成几类。具体方法是-p*logp,但是它是计算特征不同取值的混乱程度,而信息熵是计算标签不同取值的混乱程度。4、注意,CART树也可以处理离散变量,和C4.5不同的是,它是按连续变量找中间值的方法来处理的。
2024-11-30 16:19:04
357
原创 信贷风控笔记1-贷前策略篇(面试准备2)
策略为主,模型为辅:重点在于分群,比如收入、多头分群,模型作为一个工具,不用追求可解释性,作用是继续扩大收益。规则面:规则上线,转正的规则内部对比看其坏客户有没有被其他规则覆盖,拒绝的客户能不能回捞,分类归纳。原则:分群后风险水平的差异、分群后客户数据维度的差别性、分群后的分布稳定性、分群的可解释性。规则越少越好,先设计一个MVP,摸清客群,再迭代,不确定的规则可以离线观测。6.制定策略:规则挖掘、组合交叉、模型应用、分群、拒绝回捞、AD类调优。方法:新老户、进件渠道、客户属性、决策树、聚类。
2024-11-30 10:29:15
972
原创 机器学习实战笔记34-38:gridsearchcv的进阶使用,无监督学习:kmeans、DBSCAN
对于best_score_属性查看的是在roc-auc评估指标下,默认五折交叉验证时验证集上的结果,但如果对评估器用.score方法,查看的是pipe评估器默认的结果评估方式,也就是准确率。原理:设置eps和min_samples,在eps内能有min_samples个点的称为核心点,范围内的为临界点,其余为噪声点.把以核心点范围内的簇连成一片,其余噪声点舍弃。后者是解决:kmeans是解决圆形、球形边界,如果不是圆形则用DBSCAN(注:plt。前五个参数重要,最后一个是优化计算距离的时间的。
2024-11-24 10:53:59
816
原创 机器学习实战笔记32-33:网格搜索原理、参数详解及代码实操
GridsearchCV会尝试所有可能解,randomizedSearchCV会先采样后搜索,HalvingRandomSearchCV和HalvingGridsearchCV则均会先两两比较,再逐层筛选。性能参数:n_jobs和pre_dispatch(分别表示核心数、任务按照何种方式并行运算),但如果需要答复提升运行速度,建议用randomizedSearchCV或者halving算法。评估参数:scoring、refit(选择一个用于评估最佳模型的评估指标)、cv(交叉验证方式)
2024-11-17 12:38:05
974
原创 机器学习实战笔记30-31:逻辑回归及对应调参实验代码
Class_weight:输入{0:1,1:3}则代表1类样本的每条数据在计算损失函数时都会*3,当输入balanced,则调整为真实样本比例的反比,以达到平衡,但实际情况中不常用。#UI多迭代10的6次方次,tol是优化算法的收敛容忍度,c是正则化项参数。pl1.fit(x_train,y_train)#直接fit会报错,要改变求解器为saga。score_l1#打印发现degree=3是最优解,以此为degree进行后面的搜索。plt.scatter(x[:,0],x[:,1],c=y)#c表示颜色。
2024-11-16 16:46:14
982
原创 <<机器学习实战>>27-30节笔记:sklearn使用方法
但这个方法不常用,一般是在训练集上算出均值和标准差,再用到测试集上。将一行数据统一除以一范数(和)或者二范数(平方和开更)的过程,具体操作如下。pipe1=joblib.load('pipe.model')#读。然后定义xy,model.fit(x,y)即可训练出一个评估器。若是0-1标准化(缩放到0,1间)则为MinMaxScaler。fit_intecept:是否构建带有截距项的方程,默认为是。model.get_params()#获得目前超参数情况。model.intercept_ 查看截距。
2024-11-10 16:19:19
585
原创 <<机器学习实战>>15-26节笔记:逻辑回归参数估计、梯度下降及优化、模型评价指标
但也不用担心这个问题,一方面,交叉熵损失函数可能导致过拟合,ROC可以消除这个问题;这两种其实A效果更好,但ROC是判断不出的,因为都是11010,但交叉熵可以判断出。另一种理解:TPR看作一类概率的累计结果,FPR看作0类概率累计结果,也就是出现一个1就说明一类概率累计结果上去了。F1-score和ROC对比:前者更偏重对1类样本的判别能力,而ROC是类别对称的,这也提供了评判指标的选择依据。准确率不好:因为同样把一个样本判定为1,概率为0.8和0.6是不同的,所以一般训练时候用交叉熵做损失函数。
2024-10-27 12:06:51
412
原创 机器学习面试常问题目
2.多分类问题常见解决方法:OvO(每个类别拆成一个数据集)、OvR(一类作为正例,其余化为负例)和MvM(将几类化为正类,其它化为负类,穷尽所有可能,当新样本进来的时候,算新样本和原样本距离,选择距离最近的一个作为预测结果),先有个表分别是当前这条数据预测为1的概率以及它的实际类别,随着对于概率的阈值不断降低,计算TPR和FPR,分别作为横纵坐标画图,把点相连得到ROC曲线,每判断对一个就会往上,判断错就会往右,因此越好的模型应该越靠近左上方。精确率:所有预测为1中实际是1的比例。
2024-10-20 15:52:02
540
原创 数据分析题面试常问题目
b不要按个人感受去提改进建议,因为可能商业模式不是你理解的那样,这就需要提前去检索它的商业模式(搞清规模体量、用户特征、发展阶段、竞争格局、竞对的优劣势、当下业务策略以及方向)以及,针对异常出现的严重性,评估异常对业务的影响程度。Hypo该星巴克门店的营业时间为12小时(取整),忙时4h,闲时8h,制作一杯饮料时长3min,一小时最大生产量60/3*2=40杯(两台机器)6.考虑实践,分类讨论给结论,可以做AB测试,分可以按不同客群给策略和不可以按不同客群给策略来做(注意两种尽量都做一遍,方便复盘)
2024-10-19 10:32:09
2005
原创 <<机器学习实战>>10-11节笔记:生成器与线性回归手动实现
random.shuffle(l)(shuffle是打乱这个list的函数,如果需要保持每次打乱结果一样,则用random.seed(x),如果用numpy.random.seed(x)则没用。其中SSR是预测数据与标签均值的平方差,SST是实际值与均值的平方差,SSE=SSR+SST。使用梯度下降/有些矩阵可以用广义逆矩阵/修改损失函数,使得它可以满足最小二乘法求解。如果是曲线规律的数据集,则需要把模型变复杂。如果是噪音较大,则需要做特征工程。本节最后补充了线性回归的决定系数。这个指标越接近一越好。
2024-10-01 21:08:57
448
1
原创 <<机器学习实战>>1-9节笔记
plt.subplot() /括号内填一个三位数,前两位表示几行几列,第三位表示这是这些图里的第几个。以下代码验证自己建立的数据集,当线性相关性越弱的时候,是否计算出的相关值也越差,同时画图观察。很多经典算法不再有效,但特征工程、集成学习越来越有效,和深度学习分别适合于不同领域。损失函数和模型评估函数:一般不是一个,后续会讲两个不同形式的函数间的关联。#能够看出,随着delta变大,数据相关性越来越弱。如果预测目标是离散的,则是分类问题,否则回归。#由此可见,加入扰动项后模型线性相关性变弱了。
2024-10-01 15:37:41
709
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人