• 中文

    /
  • ENG

    /
  • PYC

    /

资源&服务 |

科技服务云超市
首页 > 资源&服务 > Найти технологию >详情
面向大数据备份的关键技术研究
应用领域:Высокотехнологичные услуги
我有意向
国家/地区
中国
行业领域
Высокотехнологичные услуги
简介
(1)提出了一种基于分布式内存计算的数据去重方法,能将文件分块指纹同分布式内存中缓存库对比,滤掉相同文件块,并为分布式系统中各主机分配不同任务以达到系统负载均衡,提高海量数据去重的效率,从而节省主机空间和网络带宽,为服务商降低数据运维的成本。(2)为了比较两种大数据架构下的聚类算法性能,给出了在两种大数据架构下k-means聚类算法的实现,然后重点从数学上分析k-means算法在两种架构下的理论性能差异,理论分析结果表明在平均执行时间和I/O时间上,Spark架构明显优于Hadoop架构。实验结果表明,基于spark的k-means算法的执行时间和I/O时间都明显小于基于MapReduce的k-means算法。(3)为了解决目前云备份系统中去重操作过于笼统、去重效率低下等问题, 研发了一个面向分布式数据管理的高效可靠的数据去重系统。该系统可划分为去重子系统和Web管理子系统两部分,系统实现了基本分布式数据存储功能,包括文件数据备份、数据恢复和数据删除等;实现了文件数据的去重操作,能够为云服务提供商节省大量的磁盘空间和网络带宽;实现了特定类型文件的多版本管理,支持该文件某个版本的备份和还原操作;实现了文件去重信息统计,通过图表的方式展示具体的去重效果。(4)为了实现高效的数据去重,我们将研究分布式数据去重框架,借助集群的并行计算能力提高数据去重的速度和性能。而且,我们将研究利用分布式并行计算技术实现大数据去重,将采用MapReduce分布式并行计算实现数据并行去重算法和数据并行还原算法,利用分布式集群的并发性提高数据去重与数据还原的吞吐量和性能。
  • 中文

    /
  • ENG

    /
  • PYC

    /
Официальный аккаунт в WeChat