- 博客(26)
- 收藏
- 关注
原创 数据分析框架和方法
理解这些分析方法论,会让你从一个“数据搬运工”逐步转型为一个懂得如何“让数据产生价值” 的数据工程师。主动思考: 这个数据最终要用于什么分析?优化设计: 为了让分析更有效、更高效,我的数据管道和模型应该如何设计?预判需求: 基于对业务的理解和常用方法的掌握,主动提出可以做的分析点。深度协作: 用业务分析的语言与产品和数据科学家高效沟通,共同解决问题。
2025-07-09 20:11:32
1213
原创 大数据架构师
大数据架构师是企业构建现代化数据体系的技术中枢,是“数据驱动业务”战略落地的关键保障者。这个角色不仅需要深厚的技术深度,更需要广阔的架构视野和对业务场景的深刻理解。可以将其理解为。他们负责规划、设计、实现、治理和维护支撑企业海量数据处理、存储、分析和价值挖掘的整个技术栈和平台。
2025-07-07 20:04:03
916
原创 大模型+智能任务实现
一直想做一个这样的工具:通过跟大模型对话,大模型根据对话内容生成一个任务,然后应用能够具体去实现这一任务。比方说,跟大模型对话:“下周二是妈妈的生日,麻烦在当天8点给一个提醒。” 系统自动识别内容然后生成一个任务,然后系统在下周二8点准时给用户发送消息。
2025-06-16 21:21:27
292
原创 Spark 性能调优七步法
分类内容1. 资源配置内存/核数/超越内存配置2. 分区并行度repartition / shuffle 分区3. 数据缓存persist 级别 / 释放时机4. GC 优化G1GC / JVM 堆 / GC 日志5. UDF 逻辑pandas UDF / Spark SQL 替代6. Shuffle 优化join 类型 / 倾斜解决方案7. 作业控制AQE / checkpoint / 分步执行本指南可配合 Spark UI 、YARN UI 和 GC 日志进行实际分析。
2025-06-16 15:04:00
880
原创 简历模板3——数据挖掘工程师5年经验
5年大厂数据挖掘工程经验,硕士学历,主攻推荐系统、用户画像、图神经网络与反欺诈检测。擅长构建复杂特征体系、建模全流程和线上部署,主导多个核心项目实现业务增长与系统落地。具备强建模与工程结合能力,熟悉海量数据处理、模型服务化、AB实验机制等实战经验。
2025-06-14 22:37:12
1174
1
原创 简历模板2——数据挖掘工程师5年经验
数据挖掘工程师 | 5年经验 | 硕士学历📞 138-XXXX-XXXX | ✉️ [email protected] | 🌐 GitHub: github.com/yourname | 📍 北京,China。
2025-06-14 22:22:09
1204
原创 交叉熵(Cross Entropy)
假设我们有一个分类模型(如逻辑回归或神经网络),参数为 θ。给定训练数据集 {(xj,yj)}j=1N{(xj,yj)}j=1N,其中 xjxj 是输入特征, yjyj 是真实标签(对于多分类问题, yjyj 是one-hot向量)。模型输出预测概率分布 q(i∣xj;θ)q(i∣xj;θ)(即对输入 xjxj,模型预测类别 ii 的概率)。在独立同分布(i.i.d.)假设下,整个数据集的似然函数是各个数据点似然的乘积:θ)这里, p(yj∣xj;
2025-06-08 10:10:25
910
原创 线性回归讲解L1和L2正则化
几何解释 (权重空间): 在 w1 和 w2 平面中,L1 的约束 |w1| + |w2| <= t 是一个 菱形区域(顶点在坐标轴上)。MSE 的最低点叠加这个菱形约束,最优解常常落在菱形的顶点上,而顶点就意味着某一个权重为 0(比如 (t,0) 或 (0, t) 点)。2. L1 (套索回归): 通过强制不重要的特征的权重变为 0,直接简化模型结构,只留下最关键的特征。- 防止过拟合原理: 不仅限制了权重大小,更重要的是自动选择了最相关的特征,丢弃了无用或冗余的特征,大大简化了模型结构。
2025-06-08 06:02:23
822
原创 物流场景解决方案探讨—快递真实派件位置识别
有数据:快递小哥轨迹表(小哥号,时间,经纬坐标),运单记录表(运单号,派件地址,派件小哥号,派件时间,是否本人签收),其他。现在需要识别地址真实的坐标(可能没有在派件地址处派件,可能在小区某个快递点完成了派件等情况)。通过本方案,可解决90%以上真实派送坐标识别问题,预期降低15%以上的虚假签收率。最终输出包含真实坐标的运单明细表和动态更新的地址坐标库。:识别轨迹中代表派件行为的停留点。:建立标准化地址到真实坐标的映射。:速度阈值+时空聚类(改进版):将运单派件时间关联到真实坐标。
2025-06-07 22:19:48
431
原创 顺丰数据挖掘场景应用汇总
路线优化:分析历史运输数据与实时交通、天气信息,动态规划最优配送路径,减少运输时间与成本(如某线路优化年省超1000万元)。- 仓储管理:通过“智慧云仓”预测商品SKU需求、模拟分仓方案(时效/成本最优)、监控库存健康状态,实现“单未下,货先行”。- 风险预警:监控运输异常(如延误、丢件),分析供应链上下游风险(分销商活跃度、市场趋势),制定应急策略。- 需求预测:基于历史运单、季节因素、促销活动等数据,构建预测模型提前调配资源,降低需求波动成本。- 供应链透视:揭示行业上下游协作密度与风险点;
2025-06-07 17:57:42
428
原创 Spark 性能优化全指南
对于 Spark SQL,设置 spark.sql.shuffle.partitions 合理控制 Shuffle 分区数(默认 200,可调整为 400~1000)。设置 spark.serializer=org.apache.spark.serializer.KryoSerializer。输入优化:设置 spark.sql.files.maxPartitionBytes 控制分区大小,合理合并读取文件。spark.shuffle.file.buffer:调整 Map 端缓冲区大小(默认 32KB)。
2025-06-07 14:43:43
1036
原创 向量检索中的 ANN(Approximate Nearest Neighbor)技术
向量检索中的 ANN(Approximate Nearest Neighbor)技术是一种在高维空间中高效查找与查询向量 q 最相似的 Top-K 个向量的方法,其核心在于牺牲一定的精度(召回率)以换取比精确最近邻搜索(Exact NN)高数个数量级的查询速度。它广泛应用于图像/视频检索、自然语言处理(如语义搜索、问答)、推荐系统、生物信息学等场景。⸻⸻由于精确最近邻(Exact NN)算法(如线性扫描、KD树在高维失效)在维度 > 100 时检索速度急剧下降(“维度灾难”),ANN 采用各种近似策略规避精
2025-06-07 14:01:14
1276
原创 Embedding模型与Rerank模型
在传统的信息检索系统中,TF-IDF、BM25 等基于词频和倒排索引的算法长期扮演主角,但它们往往无法理解语义上的相似性,也容易遗漏那些表达方式不同但含义相近的内容。Embedding 模型通过将自然语言文本(如句子、段落、文档)编码为稠密的向量表示,使得语义相似的文本在高维向量空间中距离更近。”,分别对查询(Query)和文档(Document)进行独立编码,然后通过向量相似度(如点积、余弦相似度)计算它们的匹配程度。”结构,将 Query 与每条候选文档拼接后整体送入模型处理,从而建模细粒度交互。
2025-06-07 11:54:04
831
原创 解决docker: Error response from daemon: Get “https://registry-1.docker.io/v2/“:
修改Docker的配置文件。
2025-06-07 11:37:42
1595
原创 数仓规范之create table
ORC和PARQUET主要区别在于ORC压缩率更高,PARQUET支持更广泛的数据类型和更多的数据系统。对于ORC可选择Snappy、Zlib压缩算法, Snappy压缩和解压性能更好,Zlib压缩比更高,需要注意的是Snappy不支持split,对并行计算会有影响;对于Parquet可选择Snappy、 Gzip、 LZO压缩算法,Gzip压缩比更高, Snappy压缩和解压性能更好,兼顾压缩比解压缩性能LZO更好。`sign_no` string COMMENT '签约协议号',
2024-08-12 15:06:51
350
原创 数仓表命名规范
格式举例:ods_mysql_bu_user_order_di,表示数据仓库中的ods层表,来源为mysql数据库,属于数据域bu,包含用户和订单信息,按天进行分区。- 层级:数据仓库中表的层级,包括:ods、dwd、dwc、dwb、dws、ads、dm、app、dim、tmp。格式举例:dws_hr_ba_labor_cost_budget_sum_mf (业务区人工成本预算表)格式举例:dwd_hr_talent_plan_dtl_di (人才规划明细表)ps: 无分区全量后缀使用"af"
2024-08-12 15:00:42
1595
原创 hive相关参数设置
队列设置set mapreduce.job.queuename=quename;开启动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;压缩设置set mapred.compress.map.output=true;set hive.exec.compress.output=true;set mapred.output.compress=true;set mapred.o
2023-07-26 16:41:35
177
原创 StarRocks+Prometheus+Grafana安装部署
说明 root 为 StarRocks 默认内置 user,密码为空,端口为 fe/conf/fe.conf 中的 query_port 配置项,默认值为 9030。-----------------------------单机版实例----------------------------------,因为json文件是需要通过浏览器上传的,所以这里不是下载到Linux服务器上,而是需要下载到咱们打开Web所用的机器上。浏览器打开下载地址,右键,另存为,在桌面保存即可。
2023-05-29 16:34:13
1596
1
原创 Spark join什么时候不触发shuffle?
这样就可以避免shuffle,因为RDD的join实现是由cogroup方法完成的,cogroup中生成了CoGroupedRDD对象,如果它的partitioner和结果CoGroupedRDD的partitioner相同,则该rdd会成为CoGroupedRDD的一个oneToOne窄依赖,否则就是一个shuffle依赖,即宽依赖。, 默认为10MB,表示当join中的一张表的size小于10MB时,spark会自动将其封装为broadcast发送到所有结点,然后进行broadcast join。
2023-05-18 20:55:26
252
1
原创 linux服务器安装jupyter notebook并设置远程访问
就会自动在根目录下生成文件(~/.jupyter/jupyter_notebook_config.py)
2023-05-18 10:14:59
210
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人