数据处理方案实现对采集的数据进行大数据环境下的非结构化数据宽表存储服务。包含对原始数据库的管理功能,有效管理源数据,提供源数据的清洗服务,可动态配置不同数据的不同清洗规则,提供去重、去残、格式转换等清洗功能。对清洗后的数据进行分层存储达到最大利用价值,对数据提供非结构化的分析服务,包含对关键词提取、自动摘要提取服务、提供相似性、聚类等大数据算法服务,最终将数据整理为高质量数据,提供数据的多格式导出。
《数据处理》解决方案主要包含原始数据库管理、清洗规则管理、清洗库管理、数据服务管理、数据转换管理五部分内容。以大数据架构体系为核心,涵盖源数据的全量存储,对于源数据提供自定义多种清洗流程自由搭配设定,对于清洗后的数据分层存储,达到数据逐步处理提纯的目的,系统提供结构化与非结构化数据大批量处理服务,包含文档解析,关键词自动摘要提取、相似性计算等,有效提升数据质量,达到数据加工的目的。