simhash-java
============
A simple implementation of simhash algorithm by java.
### Features:<br />
1. compute the simhash of a string<br />
2. compute the similarity between all the strins by build smart index, so We can deal with big data.<br />
### How to use:
- run Main with inputfile and outputfile.<br />
- The format of inputfile(see src/test_in): one doc eachline with the utf8 charset.<br />
- The format of outputfile(see src/test_out): <br />
- start //start flag<br />
- first line // doc<br />
- sencode lien // doc1\tdist the dist is the hamming distance between doc and doc1 <br />
- end //end flag<br />
### Future:
1. Build the project to a runnable jar.<br />
2. Improve the performace under big data.<br />
### Note:
1. Before run Main.java, you should choose a better analyzer instead of BinaryWordSeg!

weixin_39840588
- 粉丝: 451
最新资源
- Python语言输出10个文本文件随机5首诗句程序代码.txt
- 电力投资项目管理后评价自评编写提纲表格.doc
- Python语言输出10个文本文件562进制4位数诗句代码.txt
- 人工智能时代的城市治理.docx
- rk2206-智能车资源
- 嵌入式车道控制机教材.ppt
- 虚拟专用网络技术在计算机网络信息安全中的应用探析.docx
- 软件工程专业保障体系探索.docx
- 计算机软件技术基础试题库.doc
- Python语言输出10个不同的文本文件481进制随机成语程序代码.txt
- G431RBT6-蓝桥杯资源
- CAN通信协议在矿井安全生产监控系统中的应用.doc
- 汇编语言-汇编语言资源
- Python语言输出481进制7位数词语随机诗诀公式代码.txt
- 互联网+时代高校思政工作创新路径研究.docx
- 翻转课堂在计算机课程教学中的研究与探索.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


