主页 > 新闻中心 > 领导活动

IM体育:新点软件申请多版本文件比对专利能够弹性处理格式差异、结构化信息分析、处理文本重排和支持大规模

  专利摘要显示,本申请公开一种多版本文件比对方法、装置、系统及存储介质,涉及大数据信息处理技术领域。该方法包括:获取原始文本数据,并对原始文本数据进行预处理,得到预处理文本数据;通过词向量模型对预处理文本数据进行词向量表示,得到词向量文本数据;通过文本结构分析算法对词向量文本数据进行处理,提取文本的结构化信息;基于词向量文本数据和结构化信息计算多版本文件之间的相似度;设定相似度阈值,通过相似度阈值与计算得到的多版本文件之间的相似度判断多版本文件之间是否相似IM体育。本申请实施例提供的多版本文件比对方法考虑了语义信息、能够弹性处理格式差异、结构化信息分析、处理文本重排和支持大规模处理。

×

扫一扫关注 集团官方微信