使用tika判断文件类型中遇到的问题

本文探讨了在使用Tika进行文件类型识别时遇到的问题,包括xls与doc的minetype差异、xlsx和docx解析错误,以及空文件类型的识别误区。作者分享了实际应用中的挑战和部分解决办法,期待更多高手指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在web项目中,我们通常会上传文件到服务器,这时就会对上传文件的类型进行判断,最简单的就是对文件的后缀名进行判断,但是,但某些用户恶意修改文件后缀时,这种方法就无法对其进行拦截。所以我们应该使用tika来对文件的类型进行判断,tika是判断文件的魔术字节来对文件类型进行判断的。

之前的博客已经解释了tika如何使用,接下来说一下使用tika中遇到的一些坑。
上一篇博客
第一个就是对于微软的xls和doc跟其他的xls与doc的mine type是不同的
在这里插入图片描述

第二个就是tika会把xlsx与docx mine type解析为zip的mine type类型,这个的原因看了大佬的博客理解了一点 大佬博客

第三就是对于空的doc文件,跟有内容的doc文件,mine type类型竟然是不一样的。

以上这些问题都是我在这次实际使用时遇到的,有些以目前能力可以解决,有些解决不了,还请大佬们指教!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值