news

深信服,让it更简单、更安全、更有价值

/ 2017-05-05
  •         超过一万三千台设备在线运行;
  •         平台内部组件零故障;
  •         目前支持的用户业务数据中,最大能达到每日20亿条记录,数据容量达到48tb,总计1200亿条原始记录,超过2000亿条视图记录;
  •         每间隔5分钟同步更新超过50个数据仓库,视图总计50亿条记录;
  •         统计查询视图做到秒级返回。

这就是深信服上网行为管理最新推出的行为感知系统,拥有强大的数据计算和服务能力。该系统基于上网行为管理的海量上网日志,对用户行为特征进行深度建模分析,帮助企业发现用户行为风险,一经问世就获得大量用户的好评。

那么这个被称为“上网行为管理又一颠覆式创新”的数据分析平台是如何实现高性能、高稳定性及可扩展能力的?它有哪些自主研发的核心技术?


整体架构


行为感知系统整体架构图

深信服行为感知系统整体基于mapreduce计算框架,通过机器学习、图计算等多种先进算法,对上网行为进行多种建模分析,最后通过直观的应用商店和数据分析应用展现出来。今天我们就来解密其中几个核心技术:mapreduce框架、mvcc机制、mdi索引等。


可扩展的大数据集:mapreduce框架


mapreduce是一个分布式并行计算的软件框架,它的核心能力是将一项大任务,分解成多个互不干扰的并行的小任务,利用多cpu和多机器的计算资源提升性能。

区别于传统数据库顺序执行的计算方式,mapreduce框架的优势是可弹性扩展的计算能力。行为感知系统基于mapreduce,但做了许多独特的创新:

1、 mapreduce组件化,针对不同业务可快速替换组件,改进和优化更容易;

2、 mapreduce组件对象常驻内存,用完即毁,无需状态维护;

3、采用c/c 实现,消除语言级别性能问题。


实现并发一致性:mvcc机制

mvcc机制即多版本并发控制机制,要解决的核心问题是并发一致性问题。举例来说,如果有多个人要同时读、写数据库中同一条记录的时候,该如何保障数据的一致性?

传统的解决思路是加一把锁,让不同的用户串行化执行,一个人操作完下一个人才能才开始操作,但是这种方法无疑形成了一个瓶颈,无法满足大量并行计算的要求。

mvcc机制通过多版本数据镜像的方式,在保障数据一致性的前提下,满足海量并发访问的性能要求。行为感知系统不仅解决读写冲突问题,还具备如下特点:

1、数据修改/删除实现存储顺序化,避免随机更新,最大化利用磁盘io性能;

2、数据按版本备份,并支持自动化恢复;

3、并行处理数据的批量更新。


毫秒级查询:mdi索引

关系数据库的索引技术被吐槽多年。例如mysqlinnodb引擎和myisam引擎的索引,实际上只能针对小数据量(百万级)起作用,如果数据上了千万级索引就基本是个负担。

更有甚者,一个表的索引字段一旦多起来不仅空间消耗大,影响建表速度,而且查询的执行计划有时还选择了最差路径,实在令人难以接受。

深信服独立研究并实现了一个多维索引引擎(mdi)。通过关键字全文索引、位图索引、行程索引几个维度的索引组合提升索引的构建和查询速度。在亿级别数据下的搜索性能也能达到毫秒级返回。

正是基于对用户需求的深刻洞察,才会有深信服行为感知系统的颠覆式创新。同时,行为感知系统通过不断推出不同场景的数据分析应用,比如泄密追踪分析、全网上网势态、校园网贷分析等,为用户持续挖掘数据价值,帮助组织洞悉行为风险,简化运维管理。




深信服智安全专注做实用的安全,能够帮助组织更有效地检测并阻止安全威胁,降低it业务创新过程中的各种风险,为您的网络、数据和组织提供全面保护,让每个组织的安全建设更有效、更简单。



  • / 2020-02-15
  • / 2020-02-14
  • / 2020-02-15

©2000-2020    深信服科技股份有限公司    凯发注册网站的版权所有   

"));
网站地图