- 超过一万三千台设备在线运行;
- 平台内部组件零故障;
-
目前支持的用户业务数据中,最大能达到每日20亿条记录,数据容量达到48tb,总计1200亿条原始记录,超过2000亿条视图记录;
-
每间隔5分钟同步更新超过50个数据仓库,视图总计50亿条记录;
- 统计查询视图做到秒级返回。
这就是深信服上网行为管理最新推出的行为感知系统,拥有强大的数据计算和服务能力。该系统基于上网行为管理的海量上网日志,对用户行为特征进行深度建模分析,帮助企业发现用户行为风险,一经问世就获得大量用户的好评。
那么这个被称为“上网行为管理又一颠覆式创新”的数据分析平台是如何实现高性能、高稳定性及可扩展能力的?它有哪些自主研发的核心技术?
整体架构
行为感知系统整体架构图
深信服行为感知系统整体基于mapreduce计算框架,通过机器学习、图计算等多种先进算法,对上网行为进行多种建模分析,最后通过直观的应用商店和数据分析应用展现出来。今天我们就来解密其中几个核心技术:mapreduce框架、mvcc机制、mdi索引等。
可扩展的大数据集:mapreduce框架
mapreduce是一个分布式并行计算的软件框架,它的核心能力是将一项大任务,分解成多个互不干扰的并行的小任务,利用多cpu和多机器的计算资源提升性能。
区别于传统数据库顺序执行的计算方式,mapreduce框架的优势是可弹性扩展的计算能力。行为感知系统基于mapreduce,但做了许多独特的创新:
1、 mapreduce组件化,针对不同业务可快速替换组件,改进和优化更容易;
2、 mapreduce组件对象常驻内存,用完即毁,无需状态维护;
3、采用c/c 实现,消除语言级别性能问题。
实现并发一致性:mvcc机制
mvcc机制即多版本并发控制机制,要解决的核心问题是并发一致性问题。举例来说,如果有多个人要同时读、写数据库中同一条记录的时候,该如何保障数据的一致性?
传统的解决思路是加一把锁,让不同的用户串行化执行,一个人操作完下一个人才能才开始操作,但是这种方法无疑形成了一个瓶颈,无法满足大量并行计算的要求。
mvcc机制通过多版本数据镜像的方式,在保障数据一致性的前提下,满足海量并发访问的性能要求。行为感知系统不仅解决读写冲突问题,还具备如下特点:
1、数据修改/删除实现存储顺序化,避免随机更新,最大化利用磁盘io性能;
2、数据按版本备份,并支持自动化恢复;
3、并行处理数据的批量更新。
毫秒级查询:mdi索引
关系数据库的索引技术被吐槽多年。例如mysql的innodb引擎和myisam引擎的索引,实际上只能针对小数据量(百万级)起作用,如果数据上了千万级索引就基本是个负担。
更有甚者,一个表的索引字段一旦多起来不仅空间消耗大,影响建表速度,而且查询的执行计划有时还选择了最差路径,实在令人难以接受。
深信服独立研究并实现了一个多维索引引擎(mdi)。通过关键字全文索引、位图索引、行程索引几个维度的索引组合提升索引的构建和查询速度。在亿级别数据下的搜索性能也能达到毫秒级返回。
正是基于对用户需求的深刻洞察,才会有深信服行为感知系统的颠覆式创新。同时,行为感知系统通过不断推出不同场景的数据分析应用,比如泄密追踪分析、全网上网势态、校园网贷分析等,为用户持续挖掘数据价值,帮助组织洞悉行为风险,简化运维管理。
深信服智安全专注做实用的安全,能够帮助组织更有效地检测并阻止安全威胁,降低it业务创新过程中的各种风险,为您的网络、数据和组织提供全面保护,让每个组织的安全建设更有效、更简单。
- / 2020-02-15
- / 2020-02-14
- / 2020-02-15