文档相似度检测的准确率如何?

我们采用业界领先的算法,包括余弦相似度和Jaccard指数等,检测准确率超过95%。系统可智能识别文本重用、改写和引用等多种相似情况。

支持哪些文件格式?

系统支持PDF文件、Microsoft Word文档(.docx)和纯文本文件。您可以直接上传文件,也可以复制粘贴文本内容进行分析。

这个工具是免费的吗?

是的,我们的文档相似度检测工具完全免费,无需注册,没有任何隐藏收费。

相似度是怎么算出来的?

其实很简单,就像比较两个购物清单有多少相同的东西:

拆分成词: 把句子拆成一个个词语。就像"我今天去公园"会拆成[我、今天、去、公园]。支持中文、英文、日文、韩文等多种语言。

建立词典: 记录每个词出现在哪些地方,方便快速查找。太常见的词(比如"的""是""the")会被过滤掉,因为它们对相似度判断没什么用。

计算比例: 数一数有多少词是相同的,然后除以总词数。比如两篇文章总共有100个不重复的词,其中40个是相同的,那相似度就是40%。

📊 实际例子:

句子A:"我今天去公园玩"(4个词)。句子B:"今天去公园"(3个词)。相同的词:"今天""去""公园"(3个)。总共不重复的词:5个(我、今天、去、公园、玩)。相似度 = 3÷5 = 60%