OSB的项目转入运维期,我们解决了三个棘手的问题,慢慢的数据集成平台运行越来越好了。
一、SAP-RFC链路集群的调整
症状:
业务人员操作 RFC outbound 发出数据接口有时发送出错,需要重新传输。
可以在底层JCO的日志文件*.trc中看到有大量如下错误 :
Info: >Wed Jan 30 09:19:44,795< [JCoRFC] Server repository could not create function template for 'ZSAP_PD_MATERIAL_OUT' caused by: com.sap.conn.jco.JCoException: (102) JCO_ERROR_COMMUNICATION: CPIC-CALL: CMRCV on convId: 18748414
LOCATION SAP-Gateway on host s4prdaas.sokon.com / sapgw00
ERROR connection to partner '10.18.105.136:sapgw00' broken
TIME Wed Jan 30 09:20:18 2019
RELEASE 753
COMPONENT NI (network interface)
VERSION 40
RC -6
MODULE /bas/753_REL/src/base/ni/nixxi.cpp
LINE 5430
DETAIL NiIRead: P=10.18.xx.xxx:3300; L=10.18.xx.xx:40001
SYSTEM CALL recv
ERRNO 104
ERRNO TEXT Connection reset by peer
COUNTER 1072099
解决办法:
问题出现后,我们在开发环境和测试环境启动ERP-SAP系统定时作业,每5分钟从ERP系统发出数据给OSB。
非常奇怪,开发环境从3月1日~20日,整整20天,没有出现过一次类似错误;
测试环境从3月10日~20日,整整10天,没有出现过一次类似错误。
3月18日,项目组锁定问题出现在网络负载均衡设备的链路集群这块,请负载均衡设备工程师远程支持,
发现负载均衡设备和网络核心交换机多次路由中,网络包处理乱序较多。
3月19日,项目组对ERP服务器双机接口网关作了在线配置,指定接口的双机网关指向2号机发出。
3月20日,项目组趁硬件组安装运维工具重启服务器时,调整了ERP网关IP地址,指向了2号机。
由此,我们暂时在RFC协议避开使用负载均衡来实现链路集群。 OSB 6台服务器集群直连了ERP 2号服务器。
到3月27日,上述问题没有再出现过一次。由此,这个问题得到了根本的解决!
关于金康数据集成平台Oracle service bus使用 SAP-RFC协议,
其实一开始按我的提议采用,到后面项目中运用RFC协议的架构设计、技术配置等等,
无论是参加项目的乙方ORACLE原厂高级产品顾问陈昊、高级开发顾问熊可、SAP原厂BASIS隋工、开发组长张乃天;还是甲方10年开发总线经验的大牛刘勇、恩隆团队的高级SAP开发马兴伟,其实至始至终都是我在背后提供根本的技术指导。
我不可能再去依靠谁来解决这个问题,这个问题如果不解决,对我的压力其实是最大的。
终于,解铃还是系铃人,我用了一个月的时间,解决了这个棘手的问题。
说来也是巧合,2019-3-20晚上6点在OSB服务器按新配置生效重新启动的这个时间点,我的老丈人也在新桥医院进行椎间盘手术,38分钟后。手术圆满成功。进手术台前疼痛让他生不如死,出来后他说在也没有一丝痛苦。
而OSB平台在这个时间点重启后,JCO日志再也没有看得上述一个错误。
二、数据库表空间满,导致JMS服务器不能启动。
症状:
OSB测试环境,JMS服务无法启动,weblogic服务器重启后,JMS也无法启动。
解决:
JMS服务会有数据不断写入*.WLS表空间,如果表空间满,JMS服务会不能启动。
对数据库表空间扩容即可。
PS: 该Oracle数据库监控工具,开源说明详见:
https://blog.csdn.net/ot512csdn/article/details/51566832
三、开发的接口程序,不能发布到正式环境
症状:
我们的开发大牛刘勇,在开发完成接口后,在OSB管理端,在正式环境发布不了。
点“发布”按钮后,发布失败。
解决:
通过日志,发现6号机一直没有相关文件状态同步,重启6号机,同步一致后,发布接口程序正常。