庄小焱

博主在支付交易领域，信贷金融领域深耕，我在博客中分享业务、技术、产品相关知识，欢迎大家和我交流学习。

原创庄小焱——博主个人介绍

我是庄小焱。曾任职于阿里巴巴，PMP项目管理专家、系统架构设计师(高级)、CSDN博文专家。博主在支付交易领域，信贷金融领域深耕，我在博客中分享业务、技术、产品相关知识，欢迎大家和我交流学习。

2020-07-02 11:44:35 2160 2

本文主要探讨了信贷策略域中的信贷产品策略设计，涵盖了信贷产品生命周期管理、个人消费信贷产品设计、小企业经营性信贷产品设计以及中小企业供应链信贷产品设计等内容。文章详细阐述了信贷产品生命周期的四个阶段及其特点，并针对不同阶段的产品提出了相应的措施建议。在小企业经营性信贷产品设计部分，重点介绍了模型构建、指标设计、策略设计以及授信审批框架与流程，强调了通过多种数据衡量小微客户收入的重要性以及小企业经营性贷款模型在控制信贷风险、提升审批通过率方面的作用。

2025-08-24 21:02:39 314

原创风控域——美团点评业务风控系统设计

美团点评业务风控系统设计文章主要探讨了美团在业务快速发展过程中，如何应对复杂多变的风控挑战。文章详细介绍了风控系统的全景，包括高效的规则引擎设计、风控域的挑战与解决方案，以及未来发展方向和美团在风控方面的深入思考。通过不断优化系统架构和产品功能，美团致力于实现高聚合架构上的低耦合，平衡系统复杂度与业务需求，并通过“防呆”设计降低风险。

2025-08-24 15:27:23 1051

原创信贷模型域——客户管理阶段模型（贷中模型）

本文主要探讨了信贷模型域中的客户管理阶段模型，重点聚焦于交叉销售模型。交叉销售模型不仅应用于贷中阶段，还贯穿于贷前、贷中、贷后全过程，其核心作用在于提升客户价值、增强客户粘性、降低流失率以及实现风险与收益的平衡。文中通过具体案例展示了交叉销售模型在现实业务中的应用，并指出其在贷中阶段的主要任务是提升存量客户价值、增加产品使用率，同时有效控制风险。

2025-08-24 14:48:59 835

原创信贷模型域——催收电联模型实战

本文主要介绍了信贷催收电联模型的实践过程。从催收业务背景出发，阐述了催收行业的现状、法律政策影响、技术推动、社会争议以及面临的挑战和未来趋势。随后详细介绍了催收方案的设计，重点聚焦于基于机器学习的电联模型实践，包括数据分析与客户分群、特征加工与选取、模型选择对比、训练效果评估以及线上AB测试等关键环节。通过这些步骤，实现了从数据到模型再到落地的完整闭环，旨在持续提升催收效率。此外，还探讨了催收电联模型相关问题，如客户分类、数据来源、特征加工、模型学习起点、优化迭代、上线流程以及关键注意事项等。

2025-08-24 10:37:34 457

原创信贷模型域——信贷准入与的授信模型（贷前模型）

本文主要介绍了信贷模型域中的贷前模型，包括申请评分模型（A卡）、申请欺诈模型（F卡）和初始额度辅助策略模型（L卡）。A卡用于评估信用违约风险，F卡着重识别欺诈风险，L卡则负责在客户获批后给出合理授信额度建议。这些模型在信贷风控流程中依次发挥作用，通过不同输入特征、建模方法和决策方式，实现风险控制与客户体验的平衡。

2025-08-24 09:40:32 493

原创信贷模型域——信贷获客模型（获客模型）

本文深入探讨了信贷模型域中的信贷获客模型，包括风险预筛选模型、响应模型和渠道分析模型。风险预筛选模型在用户进入完整风控流程前快速拦截高风险申请，降低成本、提升效率并降低风险敞口。响应模型预测潜在用户对营销触达的积极响应概率，优化营销资源分配，提高转化率并降低成本。渠道分析模型衡量不同获客渠道的质量、成本、转化率和风险表现，帮助信贷公司找到高质量、低风险、成本可控的渠道，并对投放和流量分配进行优化。

2025-08-23 21:30:33 724

原创定时任务——ElasticJob原理

文章主要介绍了ElasticJob的原理和源码解析。ElasticJob是一个分布式任务调度框架，使用Zookeeper作为协调器，支持任务分片和分布式锁机制。文章还探讨了ElasticJob的作业流程、任务分配、Leader选举、任务触发和执行机制，以及如何在Spring Boot中使用ElasticJob。

2025-08-23 10:32:36 709

原创支付域——支付计费系统设计

本文深入探讨了支付计费系统的设计与管理。支付计费系统因行业多通道支付发展、商业模式驱动和合规监管需求而产生，其核心目标是自动化、灵活化地完成费用计算与分润，提升透明度和效率。系统设计涉及计费因子、计价方式、计费模型、计费公式、结算规则等多个方面，需满足商户计费、用户计费、渠道计费等多种场景需求。计费规则管理包括银行协议与接口、计费规则条目、划付与划付规则等。计费业务全流程涵盖支付订单生成、计费系统计算、清结算系统处理等环节。支付计费系统与信贷利率计算服务虽有相似之处，但在业务模型、规则来源、计算结果等方面存

2025-08-17 15:48:35 68

原创支付域——支付路由引擎设计

本文深入探讨了支付路由引擎的设计与管理。支付路由引擎作为支付通道智能选择和路由的中枢系统，根据多种因素选择最优支付通道。其应用场景广泛，包括跨境支付、多渠道支付、高并发支付场景等。支付路由引擎的作用涵盖通道选择、成本优化、成功率优化等多个方面。文章还详细介绍了支付路由的分类、模型设计、核心设计以及技术实现等内容，旨在提升支付系统的灵活性与可扩展性。

2025-08-17 00:16:45 68

原创系统设计——DDD领域模型驱动实践

本文主要介绍了DDD（领域驱动设计）在系统设计中的实践应用，包括其在编码规范、分层架构设计等方面的具体要求和建议。重点强调了应用层的命名规范，如避免使用模糊的Handler、Processor等命名，推荐使用动词加业务动作的清晰命名方式；区分命令和查询服务的命名规则；以及Repository层和防腐层的设计原则。此外，还探讨了DDD的价值和在实际系统中的应用思考。

2025-08-14 23:04:18 734

原创支付域——账户系统设计

本文详细介绍了支付域中的账户系统设计，包括账户的定义、核心特征、常见类型以及在支付系统中的作用。账户是支付平台为用户、商户等主体建立的资金记录单元，具有资金归属、余额管理、交易流水、资金安全等核心特征。常见账户类型包括用户账户、商户账户、平台账户、保证金账户等。此外，还探讨了账户与银行账户的区别、账户的结构设计、如何设计账户类型以及账户系统设计等内容。

2025-08-14 22:56:31 467

原创 Spring——Spring懒加载设计使用场景

本文主要探讨了Spring框架中懒加载机制的设计使用场景。首先解释了懒加载的定义，然后对比了懒加载和初始化加载的区别，包括初始化时机、启动速度、运行性能、资源占用、典型应用场景和实现方式等方面。接着分析了懒加载与启动时初始化在不同维度的对比，如启动时间、首次访问性能、系统运行稳定性、资源占用、复杂度和开发体验等，并给出了在后端风控系统中的建议实践，包括不同组件类型的推荐加载方式及原因。最后针对风控场景提出了使用建议。

2025-08-09 15:15:28 741

原创大数据存储域——Hive数据仓库工具

Hive是一个构建在Hadoop之上的数据仓库工具，本质上是SQL到MapReduce的转换器，适合海量数据的批处理查询。与传统数据库相比，它存储在HDFS上，计算执行依赖MapReduce等，不支持实时操作和完整事务。其架构包括JDBC/ODBC接口、Thrift Server、Web界面、命令行界面、驱动器、解析器、任务计划器、元数据存储、执行器、优化器等组件。Hive的元数据存储可选择外部数据库（推荐MySQL/PostgreSQL）或本地嵌入式数据库。执行引擎可选MapReduce、Tez、Spar

2025-08-06 23:37:49 678 1

原创大数据存储域——HDFS存储系统

本文介绍了HDFS存储系统，包括其组件、工作机制、实战经验总结、使用场景以及与SpringBoot的实战示例和优化设计。HDFS由Client、NameNode、SecondaryNameNode、DataNode等组件构成，通过特定的工作机制实现文件的读取和写入。它适用于多种场景，如日志采集、大数据离线分析等，但也有不适用的场景。文中还展示了如何在SpringBoot项目中使用HDFS，包括引入依赖、配置文件、配置类、操作服务类和控制器层的实现。最后探讨了HDFS的优化设计。

2025-08-06 21:50:08 813

原创【离线数仓项目】——任务调度与数据可视化实战

本文主要围绕离线数仓项目中的任务调度与数据可视化实战展开，介绍了业务流程虚拟节点、离线数仓任务调度、数据可视化等方面的内容，涉及DataWorks和QuickBI等工具的使用，并提供了相关的博文参考和项目实战域信息。

2025-07-13 00:41:16 429

原创【离线数仓项目】——电商域ADS层开发实战

本文主要介绍了电商域离线数仓项目中ADS层的开发实战。首先阐述了ADS层的定义、作用、设计特征及示例，接着详细介绍了ADS层的设计规范，包括命名、表结构、分区与性能、数据一致性与可追溯性、适配下游场景、数据质量保障、安全与权限管理以及表生命周期与归档规范。随后介绍了ADS层的采集策略及示例，包括聚合汇总、指标派生、多主题整合、特征抽取、实时流处理、维表补充、报表定制和分层输出策略。接着通过实战示例展示了ADS层数据集市与主题、数据模型、数据导入、任务调度和表关联管理的具体操作。最后对ADS层进行了深入思考。

2025-07-13 00:35:43 370

原创【离线数仓项目】——数据模型开发实战

本文主要介绍了电商业务背景下的离线数据仓库项目，包括业务域划分、核心业务域、业务核心流程以及电商业务数据模型。详细阐述了如何基于业务职能和数据主体进行业务域划分，如用户域、交易域等，并列举了电商核心业务域的主题域及其特点和实例。同时，对支付业务数据模型中的各类表进行了详细说明，如订单相关表、支付相关表等。最后，还介绍了电商数仓业系统方案设计以及DataWorks实战操作的各个步骤。

2025-07-12 23:58:44 628 2

原创【离线数仓项目】——电商域DWS层开发实战

本文主要介绍了电商域离线数仓项目中DWS层的开发实战。DWS层是数据仓库中承接DWD明细层之上的汇总/主题/服务层，通过对明细数据的聚合、归类、计算和整合，形成面向分析和服务的业务主题数据表。文章详细阐述了DWS层的作用、设计特征、设计规范、采集策略以及实战示例，并对DWS层的数据思考进行了深入探讨，提出了建设建议。

2025-07-12 23:54:17 497

原创【离线数仓项目】——电商域DWD层开发实战

本文主要介绍了离线数仓项目中电商域DWD层的开发实战。DWD层是数据仓库架构中的明细数据层，对ODS层的原始数据进行清洗、规范、整合与业务建模。它具有数据清洗、标准化、业务建模、整合、维度挂载等作用，常见设计特征包括一致性、明细级建模、保留历史记录等。文中还给出了交易支付场景下的DWD层表示例，以及DWD层设计规范、采集策略、实战示例和数据思考等内容。

2025-07-12 23:08:19 841

原创【离线数仓项目】——电商域DIM层开发实战

本文主要介绍了电商域离线数仓项目中DIM层的开发实战。首先阐述了DIM层的简介、作用、设计特征、典型维度分类以及交易支付场景下的表示例和客户维度表设计。接着介绍了DIM层设计规范，包括表结构设计规范、数据处理规范以及常见要求规范。然后详细讲解了DIM层的采集策略，包括全量采集、增量采集、拉链采集、慢变维采集和外部字典加载等。最后通过实战示例，展示了DIM层维度建模、数据同步、任务调度、拉链表同步以及表关联管理的过程，并对DIM层与ODS层进行了对比总结，探讨了DIM层的典型应用场景。

2025-07-12 22:08:26 1650

原创【离线数仓项目】——数据同步策略实战

本文主要介绍了数据同步策略的实战应用，包括全量同步、增量同步、CDC、批处理和流式同步等多种方案，并总结了它们的适用场景和优缺点。同时，详细探讨了数据同步过程中可能出现的异常情况及解决方案，如数据丢失、重复、时序错乱、延迟和任务失败等。重点介绍了阿里巴巴的 DataX 离线数据同步工具，包括其设计理念、主要作用、典型使用场景、支持的数据源、核心架构及优势。此外，还提及了实时数据同步实战中的 Canal 基于 Mysql 数据实时同步的实践。

2025-07-12 18:17:39 762

原创【离线数仓项目】——电商域ODS层开发实战

本文主要介绍了数据仓库中ODS层的开发实战，包括ODS层的定义、作用、设计特征、采集策略、开发实战、调度示例以及数据存储思考。ODS层作为数据仓库的底层，用于存储从各业务系统同步过来的原始数据，具备准实时或定时更新的能力。它为数仓中其他层提供数据缓冲，减少源系统压力，同时保留一定时间的业务数据，便于问题排查和数据补录。ODS层的设计特征包括命名规范、数据清洗前置、数据标准化等。采集策略包括增量采集、全量采集和拉链采集。开发实战部分详细介绍了ODS层数据离线同步任务、全量初始化同步、增量实时同步、同步结果查询

2025-07-12 09:27:08 934

原创【离线数仓项目】——数仓开发流程实战

本文围绕离线数仓项目展开，重点阐述了电商业务需求分析、架构与模型设计、数仓系统性能基准以及性能相关指标优化等内容。在电商业务需求分析方面，强调了充分调研的重要性，包括了解组织架构、业务架构、各业务板块主要功能及数据需求等。架构与模型设计部分，详细介绍了技术架构选型、数仓分层设计以及各层的数据模型设计要点。数仓系统性能基准和性能相关指标优化则涉及数据同步时间、存储大小记录以及Hash Clustering等优化技巧，旨在提升数仓性能。

2025-07-12 07:22:02 968

原创【离线数仓项目】——离线大数据系统设计

本文详细介绍了离线大数据系统的设计背景、实时系统与离线系统的对比、离线大数据系统的作用以及技术设计等内容。离线大数据系统适用于数据量大、计算复杂且对实时性要求不高的场景，可满足企业数据分析、AI/机器学习训练等需求，同时减轻实时系统压力。文章还探讨了离线大数据系统的整体架构、各层所需核心技术栈以及准实时大数据技术设计和全栈监控体系设计，为相关项目开发提供了全面的技术参考。

2025-07-06 11:31:38 1656

原创【离线数仓项目】——数据建模与数仓设计

本文详细介绍了离线数仓项目中的数据建模与数仓设计。数据建模面向主题域组织数据，构建多维数据结构，统一业务口径，实现数据的可理解、可追溯、可复用和可扩展。介绍了数仓常见建模方法，包括维度建模及其常见结构（星型模型、雪花模型、星座模型）。重点阐述了数仓分层建模架构（ODS、DWD、DWS、ADS、DIM），以及指标建模与口径管理。还提供了建模流程（从业务调研到文档编写）和电商订单主题建模示例，最后给出设计建议与最佳实践。

2025-07-06 11:22:15 1018

原创信贷域——信贷授信业务

本文详细介绍了信贷授信业务，包括其核心目标、典型流程、不同机构授信流程的对比、授信业务的其他类型以及授信模块的技术实现。信贷授信是金融机构在放贷前对客户信用额度的评估与审批流程，旨在控制风险、合理设定额度和期限、确保合规，并促进业务发展。文中还探讨了授信流程中的关键技术模块和评估内容，以及银行、消费金融公司和互联网平台在授信流程上的差异。

2025-06-21 20:56:11 1119

原创信贷域——信贷年审业务

本文介绍了信贷年审业务，包括其核心目标、典型流程、不同机构年审流程对比以及技术方案。信贷年审是金融机构对已授信客户进行的定期风险评估与额度调整流程，旨在动态管理信贷风险。其核心目标是审查客户资质变动、还款行为、评估授信风险、调整额度和决定是否续期。典型流程包括客户筛选、年审触发、评分与策略评估、审批处理和授信结果推送等环节。不同机构的年审流程存在差异，技术方案涉及多个技术模块和实现关键点。

2025-06-21 15:47:46 761

原创信贷域——资产证券化业务

资产证券化是一种金融技术，将缺乏流动性的资产打包成资产池，通过特定目的载体（SPV）以证券形式出售给投资者，实现融资和风险转移。其涉及原始权益人、SPV和投资者等主体，常见种类有MBS、ABS和CLO。在中国，消费金融公司等机构通过资产证券化实现融资，但需注意风险和关键条件。

2025-06-21 10:22:16 1383

原创大数据治理域——实时数据开发

本文深入探讨了大数据治理域中的实时数据开发，重点介绍了流式数据处理的核心价值、特点、技术挑战、典型能力和应用场景。同时，详细阐述了流式技术架构，包括数据采集、处理、存储和服务等环节，并针对大促场景提出了相应的技术措施，如实时任务优化、数据链路高可用和系统压测等，旨在为实时业务提供高效、稳定的数据支持。

2025-06-21 08:28:41 1666

原创大数据治理域——数据服务

本文主要介绍了阿里数据服务架构的演进过程，依次经历了DWSOA、OpenAPI、SmartDQ和OneService四个阶段，每个阶段都有其特点及存在的问题。同时，文章还涉及了技术架构、数据服务最佳实践等内容。

2025-06-21 00:50:05 949

原创大数据治理域——数据挖掘设计

本文主要介绍了阿里巴巴在大数据治理域中的数据挖掘设计。随着数据量的爆炸式增长，阿里巴巴从使用传统的商业挖掘软件，发展到构建自己的机器学习算法平台，以应对海量数据的挖掘需求。文章概述了数据挖掘的重要性，介绍了阿里巴巴数据挖掘算法平台的发展历程、架构和功能，以及数据挖掘中台体系的构建。最后，通过用户画像和互联网反作弊等案例，展示了数据挖掘在商业中的应用价值。

2025-06-20 23:26:48 1072

原创大数据治理域——计算管理

本文主要探讨了大数据治理域中的计算管理问题，特别是系统优化和任务优化两个方面。文章首先指出MaxCompute集群任务众多，资源消耗巨大，因此需要优化计算资源以提高性能和任务产出时间。文章介绍了HBO（基于历史的优化器）和CBO（基于代价的优化器）两种优化方式，详细阐述了它们的原理和优势。HBO通过任务历史执行情况和集群状态信息为任务分配合理资源，而CBO则通过收集统计信息计算执行代价，选择最优执行方式。文章还介绍了MaxCompute原资源分配策略以及HBO的提出背景，最后探讨了任务优化中的Map、Joi

2025-06-20 22:18:08 711

原创大数据治理域——数据存储与成本管理

本文主要探讨了数据存储与成本管理的多种策略。介绍了数据压缩技术，如MaxCompute的archive压缩方法，通过RAID file形式存储数据，可有效节省空间，但恢复时间较长，适用于冷备与日志数据。还详细阐述了数据生命周期管理策略，包括周期性删除、彻底删除、永久保留、极限存储、冷数据管理以及增量表merge全量表策略，并提出了通用的生命周期管理矩阵，以及数据成本量和数据使用费的概念，旨在优化数据存储治理，降低成本。

2025-06-18 20:23:20 1086

原创大数据治理域——数据质量管理

本文系统阐述了数据质量在数据治理中的重要性。随着企业数字化转型，数据成为核心资产，数据质量直接影响业务决策、运营和合规。数据质量问题常见于准确性、一致性、完整性、及时性、唯一性和可解释性方面。这些问题若不重视，将导致决策失误、业务风险和合规问题，因此企业必须重视数据质量管理，以发挥数据的真正价值。

2025-06-18 19:57:12 1207

原创大数据治理域——数据应用设计

本文主要探讨了阿里巴巴数据应用的实践与发展，包括生意参谋在电商领域的应用以及阿里巴巴内部数据产品平台的建设。生意参谋通过数据驱动帮助商家优化运营，如周黑鸭利用其预测销量减少商品过期问题，烟花烫通过“赛马”机制提升销售额。未来，生意参谋将拓展全渠道数据服务，打造个性化数据分析门户。阿里巴巴内部数据产品平台则经历了从临时需求到成熟平台的四个阶段，为不同角色员工提供数据监控、分析和决策支持，助力商业决策。

2025-06-15 11:19:19 670

原创大数据治理域——元数据管理

本文主要介绍了元数据管理在数据治理领域的重要性。元数据分为技术元数据、业务元数据、操作元数据和管理元数据，其价值体现在数据资产管理、提升数据可理解性、支撑数据血缘分析、辅助数据质量治理、实现数据共享与复用、支撑自动化运维与开发以及实现数据合规与审计追踪等方面。企业应用实践场景包括数据目录平台、数据血缘图、数据质量监控平台和自助数据分析平台。统一元数据体系建设的目标是统一标准、打通上下游、支撑数据治理和资产化管理以及提升数据可用性，其核心能力模块包括元数据采集、管理、服务和数据血缘管理。

2025-06-15 08:53:16 1955

原创大数据治理域——事实表设计

本文详细介绍了数据治理域中的事实表设计。首先阐述了事实表的基本概念，包括其定义、粒度、关键特征、结构组成以及分类。接着通过订单事实表结构的例子，生动展示了事实表的实际应用。事实表是存储业务过程或事件中度量值的数据库表，以业务事件为中心，具有明确的粒度和可加性等特点，通常包含外键、度量指标等字段，可分为事务型、周期快照型和累积快照型三种。

2025-06-15 00:47:57 688

原创大数据治理域——维度表设计

本文主要介绍了数据治理域中维度表设计的相关内容。首先阐述了维度在数据仓库建模中的重要性，它是事实 - 维度模型的核心组成部分，用于支持业务数据的多维分析。接着详细讲解了确定维度属性的步骤，包括从主维表和相关维表中选择或生成维度属性。然后列举了维度设计的经验总结，如维度字段要贴近业务语义、字段类型选择要合理等。还给出了确定维度属性的几点提示，如尽可能生成丰富的维度属性、区分数值型属性和事实等。

2025-06-14 22:37:01 1023

原创大数据治理域——数据建模设计

数据建模设计是数据治理体系中的关键组成，承载着数据标准化、资产化与高质量使用的核心目标。本文从治理视角出发，深入探讨数据建模在保障企业数据一致性、复用性和共享性方面的重要作用。文章首先梳理了建模的三层体系：概念模型、逻辑模型与物理模型，并分析它们在治理流程中的职责分工与协同机制。接着，重点介绍了维度建模（如星型、雪花模型）与范式建模的特点与适用场景，特别是在大数据环境下的实践差异。在建模规范方面，文章提出应遵循统一命名、粒度控制、键值管理和维度共享等标准，确保数据模型在多系统、多主题下的兼容性与可控性。围绕

数据集是一个专门用于犯罪新闻标题二元分类任务的数据集。它为研究人员和数据科学家提供了一个宝贵的资源，用于开发和测试能够自动识别新闻标题是否涉及犯罪内容的机器学习模型。该数据集是一个平衡的数据集，这意味着它包含了数量大致相等的犯罪新闻标题和非犯罪新闻标题。这种平衡的设计对于训练有效的分类模型至关重要。如果数据集中某一类别的样本数量远远多于另一类，模型可能会偏向于多数类，从而导致分类性能下降。通过确保两类数据的平衡，该数据集能够帮助模型更好地学习两类标题的特征差异，提高分类的准确性和泛化能力。数据集中的新闻标题来源于多种渠道，涵盖了不同地区、不同事件类型的新闻报道。这些标题经过精心筛选和标注，确保了数据的质量和可靠性。每个标题都被明确标记为“犯罪”或“非犯罪”，为模型训练提供了明确的监督信号。对于机器学习和自然语言处理领域的研究者来说，这个数据集具有广泛的应用价值。它可以用于训练深度学习模型，如卷积神经网络（CNN）、循环神经网络（RNN）及其变体长短期记忆网络（LSTM）和门控循环单元（GRU），也可以用于传统机器学习算法的实验。通过在该数据集上进行训练和验证，研究人员可以开发出能够快速准确判断新闻标题是否涉及犯罪的模型，这对于新闻分类、内容审核以及犯罪监测等领域都具有重要意义。此外，该数据集还可以用于探索自然语言处理中的文本特征提取、语义分析等技术。通过对犯罪和非犯罪新闻标题的语言风格、关键词分布等特征进行分析，研究人员可以更好地理解不同类型新闻标题的语言规律，进一步优化分类模型的性能。总之，数据集是一个高质量、平衡且具有广泛应用前景的数据集，为相关领域的研究提供了坚实的基础。

2025-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人