公安网网络流量大数据分析-知识讲义

　公安网网络流量大数据分析

　和管控项目需求书

　1 项目概述 4

　1.1 项目背景 4

　1.2 解决思路 4

　1.3 项目目标 5

　1.4 建设原则 7

　1.4.1 参考标准 7

　1.4.2 可靠性及可用性 7

　1.4.3 安全性 8

　1.4.4 成熟性 8

　1.4.5 先进性 8

　1.4.6 可扩展性 8

　2 架构描述 8

　2.1 整体架构 8

　2.2 功能架构 9

　2.2.1 应用层 11

　2.2.2 接口层 11

　2.2.3 分析服务层 11

　2.2.4 数据资源层 11

　2.2.5 基础设施层 12

　2.2.6 数据可视化 12

　2.2.7 数据交换 12

　2.2.8 流量采集 13

　2.2.9 运维管理 13

　2.2.10 安全管理 13

　3 平台建设需求 13

　3.1 业务门户功能需求 14

　3.1.1 业务功能需求 14

　3.1.2 门户管理功能需求 14

　3.2 业务功能需求 16

　3.2.1 应用识别 16

　3.2.2 流量展示及异常流量识别 17

　3.2.3 流量智能调度 19

　3.2.4 用户画像 21

　3.2.5 应用关联关系 27

　3.2.6 应用画像 29

　3.2.7 精准推送 33

　3.2.8 行为识别 35

　3.3 数据可视化需求 37

　3.4 大数据处理分析组件建设需求 38

　3.4.1 数据服务模块建设要求 39

　3.4.2 大数据分析算法库建设要求 39

　3.4.3 分布式存储建设要求 46

　3.4.4 分布式并行处理建设要求 46

　3.4.5 实时内存分析处理建设要求 46

　3.4.6 实时分析结果查询建设要求 46

　3.5 ETL工具建设需求 46

　3.6 实时流量数据收集建设需求 47

　3.7 基础设施建设需求 47

　3.8 数据交换组件需求 47

　3.9 安全管理需求 47

　3.10 运维管理需求 49

　4 数据采集建设需求 49

　4.1 采集器部署要求★ 49

　4.2 采集器数据采集方案 50

　4.3 流量控制调度能力要求 50

　4.4 采集器性能及可靠性 51

　1 项目概述

　1.1 项目背景

　目前内网运行管理中面临以下三方面挑战：

　1. 流量分布不均

　流量分布不均体现在，忙闲时流量差距较大、区域性流量差距较大和流入流出差距较大。造成此类问题的主要原因不是链路资源不足，而是数据资源分布不均。因此，现有扩容链路是解决拥塞问题的办法之一，优点是效果明显，升级链路后拥塞能够得到有效缓解，但是无法从根源去解决此类问题。

　2. 应用服务质量保障不到位

　随着应用的不断发展，部分业务系统的服务范围和可靠性要求提出了新的要求。一方面，随着应用的广泛使用，内网上系统的数量、种类和系统数据量在大幅增加。在此背景下，内网按照原有的网络设计承载能力和数据转发机制上，无法发挥现有网络传输能力和利用带宽资源，易发生网络拥塞和服务质量下降等情况。另一方面，业务系统的服务质量和服务要求已经不满足于畅通率的指标，而对网络传输质量、带宽保障和延迟等提出了新的要求。现有运维手段无法满足此类保障要求。

　3. 网络管控手段有限，时效性不强

　随着应用的快速发展，网络服务内容也在发生更本性变化。从最初的提供数据传输管道，到提供更好的网络传输质量保障。目前主干网在网络流量管控、调度方面，存在不足，传统的QOS需要网络全程部署，精准度低、调整范围广、工作量大，无法满足现阶段内网运营管理需求。尤其是针对突发流量导致的网络拥塞、网络设备或者链路故障导致传输能力下降、临时提出的固定时间、固定区域的网络保障要求等问题时，没有高效的流量调度和管控手段。即使发现问题，无法第一时间精准管控和调度。

　1.2 解决思路

　针对内网运行管理中面临的，应从三个方面进行解决，具体内容如下：

　? 首先，应该做到能够准确了解内网中的流量，分析内网的各个链路的流量中，都有哪些数据和应用、每个应用的流量大小、服务时段、服务的质量如何、这个应用在为哪些系统和用户在服务，以及详细的流量信息，便于开展流量的调度和应用服务保障策略的制定。

　? 其次应该能够准确预测流量，这个预测不是简单的通过现有的今年流量数据和曲线去测算明年的流量，而是通过对应用分类，针对各个应用的流量、服务时段和服务质量，去测算每个应用的流量趋势，再通过汇总，可以精准的评估出内网每条链路每个时段的流量大小和趋势。一方面可以更为精准的预测流量，为链路扩容和网络流量调度提供更为精准的数据支持，另一方面，也可以为重点应用服务保障策略提供准确的数据支持。

　? 再次应该能够准确管控流量。管控不是关停相关服务，也不是按照传统网络策略采取的丢包式的牺牲策略。而是通过对不同应用的网络需求，制定不同的调度和管理方案。例如，对网络延迟较敏感的实时类应用，提供较高的带宽保证传输质量，对于网络速度不敏感的应用，按照时段或者按照带宽利用率动态限制占用的带宽大小，保证应用正常使用的前提下，合理利用内网带宽资源，对于备份类和非工作时段的数据传输，调度到非忙时传输，对于本地数据资源丰富的，推送相关本地资源信息，避免异地查询或者下载，占用广域网资源等

　? 最后做好重点应用的服务和保障工作。一方面是通过精准的流量预测和智能的调度和管控确保提供足够的可靠的网络资源，另一方面，按照应用的关联关系，对应用服务所需的整个应用和资源组提供所需的关联服务和保障。通过定制的行为识别还可以为应用提供更广泛的服务和保障。

　1.3 项目目标

　本项目目标包括两个方面：业务目标和建设目标，其中业务目标包括三个方面：智能化流量趋势分析、全网流量智能调度和重点应用智能化保障：

　项目业务目标

　精准的流量趋势分析：

　1) 能够对指定链路、指定某个应用或某类应用，通过数据挖掘算法，智能化进行指定周期（例如五年后）的指定时段（例如全天时段、或者白天时段）的流量趋势预测；

　2) 能通过系统可视化能力，用户可通过界面选择操作(例如界面上选择指定周期、指定时段)，进行分析结果的图形化展示。整个业务场景需要使用的业务模型：应用画像、流量预测。整个业务场景的实现中，使用的分析方法有：

　? 简单统计类：链路指定时段的流量、指定应用的指定时段的流量，用户访问量，跨域访问量等

　? 数据挖掘类：链路的流向趋势，链路的应用分布应用的用户地域分布；

　? 智能分析类：应用画像之分类流量预测。

　全网流量智能调度

　1) 全网流量规划：通过应用画像及流量的可视化能力，可以从整体分析全网络流量的现状，通过查看链路的流量流向信息，链路上具体的应用分类情况，可以指定整个网络整体的流量规划。通过实时分析数据和预测数据进行流量控制规则生成，分析方法中统计类的包括链路流量趋势，链路的流向趋势，链路的应用分，智能分析类的包括全网流量趋势预测，应用分类。

　2) 根据规划生成流量策略，检测如果链路流量不符合流量规划，则采用精准推送方式提醒流量使用者。流量规划策略可包括流量的分时段使用带宽要求，应用的分地域使用带宽要求，链路带宽阈值要求。

　3) 紧急情况流量管控，当网络中发生拥塞，或预测网络中发生拥塞，则通知用户或直接对采集器下发流量控制策略，可以对低价值应用进行控制或疏导（CAR，打标签通过策略路由转发），同时对高价值应用进行业务策略保证（配置Qos策略）

　4) 整个业务需要使用的业务模型：流量趋势分析、应用画像、精准推送、流量智能管控。

　重点应用智能化保障

　1) 通过对应用系统的分析，对整个应用系统使用的带宽情况，支撑此应用系统的带宽使用情况进行分析，对采集器下发QoE策略，对应用系统对外提供服务的带宽和支撑应用系统使用的带宽进行保障。

　2) 整个分析采用统计方法的是应用的带宽使用情况，支撑系统的带宽情况。采用挖掘和智能分析方法的是应用关系，流量趋势预测。

　3) 整个业务需要使用的业务模型：流量趋势分析、应用画像、流量智能管控。

　项目建设目标

　? 构建网络大数据分析平台，基于领先的大数据处理技术，实现对海量网络流量数据的存储、统计分析和深度学习；实现针对网络流量数据的数据挖掘和深度分析模型和算法库；

　? 建立模型库：通过大数据分析的方法，设计符合内网趋势和研究方向的网络流量数据分析模型，并通过通过大数据分析算法库，将业务模型固化实现，支撑网络运维工作发展。

　? 构建基于全网的易于部署的高性能数据采集器，采集器需要支持海量的数据提取及预处理能力，支持完善的包检测及丰富的自定义能力，满足大数据平台的数据采集要求。

　? 通过系统建设提供丰富的功能，系统提供大数据分析，用户画像，应用画像，关联关系分析等功能，提供内网检测，信息推送，流量管理等主动控制功能。通过关键项进行综合评分，提供全面的信息化程度展现。

　相关工作需要对全量的网络数据和应用信息进行相应的梳理、归类，采用大数据的技术和理念进行深度分析，可以获得新的有价值的信息，发现其中的规律和趋势，挖掘数据中内在的价值，将网络运维工作带入一个新的领域。一方面在运维思路上，将从关注“网络通断”的传统运维管理提升到关注“网络流量内容”的智能化、精细化的网络管理；另一方面将从原有的故障事后处理的被动响应转化为故障事前预测，通过趋势分析结合智能管控手段，有效的避免异常的出现，实现网络运维的主动性预防。

　1.4 建设原则

　网络大数据分析平台应利用当前主流的大数据技术构建，严格遵循国家相关标准，在技术上领先，系统具备高可靠性、高安全性和高可用性，软件架构成熟，应用技术和模式具有先进性，平台具备动态扩展能力。

　1.4.1 参考标准

　网络大数据分析平台必须遵循相关国家和行业标准规范，包括但不限于如下的列表。

　? 《国家信息化“九五”规划和2010年远景目标（纲要）》

　? 《国家信息化领导小组关于我国电子政务建设指导意见》（中办发[2002]17号）

　? 《电子政务工程技术指南》（国信办[2003]2号）

　? 《电子政务标准指南》，国信办和国家标准委员会，2002年5月

　? 《电子政务标准化指南?总则》（国标委高新[2002]42号）

　? 《信息系统安全等级保护定级指南》GB-T 22240-2008

　? 《信息系统安全保护等级基本要求》GB-T 22239-2008

　? 《信息系统安全等级保护实施指南》GB-T 25058-2010

　? 《信息系统等级保护安全设计技术要求》GB-T 25070-2010

　? 《计算机信息系统安全保护划分准则》GB17859-1999

　? 《信息系统安全等级保护测评准则》送审稿

　? 《涉及国家秘密的计算机信息系统安全保密方案设计指南》，国家保密局，2001年4月

　? 《涉及国家秘密的计算机信息系统安全保密技术要求》，国家保密局，2000年7月

　? 《计算机软件工程规范国家标准汇编》 GB8567-88

　? 《计算机软件产品开发文件编制指南》 GB/T 8567-1988

　? 《计算机软件需求说明编制指南》 GB/T 9385-1988

　? 《计算机件分类与代码》 GB/T 13702-1992

　? 《软件工程术语》 GB/T 11457-1995

　1.4.2 可靠性及可用性

　网络大数据分析平台的可靠性包括整体可靠性、数据可靠性和单一设备可靠性三个层次。通过大数据平台的分布式计算、分布式存储架构，从整体系统上提高可靠性，降低系统对单设备可靠性的要求。

　可用性是通过冗余、高可用集群、应用与底层设备松耦合等特性来体现。在网络大数据分析平台规划设计、设备选型/配置中大量采用了硬件设备冗余、网络链路冗余、应用容错等手段，充分保证了整体系统的可用性。

　1.4.3 安全性

　遵循行业安全规范，设计安全防护保证大数据分析平台安全。重点保障网络安全、主机安全、虚拟化安全、数据保护。

　1.4.4 成熟性

　从架构设计、软硬件选型和IT管理三个方面设计网络大数据分析平台解决方案，采用经过大规模商用实践检验的架构方案和软硬件产品选型，采用符合ITIL规范的IT管理方案，保障方案的成熟性。

　1.4.5 先进性

　合理利用大数据的技术先进性和理念先进性，资源动态部署等先进技术与模式，并与网络大数据分析业务相结合，确保先进技术与模式应用的有效与适用。

　1.4.6 可扩展性

　支撑网络大数据分析平台的资源需要根据业务应用工作负荷需求进行弹性伸缩，IT基础架构应与业务系统松耦合，这样在业务系统进行容量扩展时，只需增加相应数量的IT硬件设备，即可实现系统的灵活扩展。

　2 架构描述

　2.1 整体架构

　本项目整体架构图如下图所示，首先由网络流量采集器采集实时流量数据，通过实时流量数据收集模块，将实时采集的流量数据存储本地之后，通过大数据平台的ETL工具，完成数据的清洗、装换，之后装载至大数据处理平台，进行处理分析。基于大数据的处理技术，构建符合智能网络管理需求的大数据分析业务模型，包括用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别等，对网络流量数据进行大数据分析，借助专业的可视化组件，完成数据分析结果的展现。

　图1：系统整体架构设计图

　通过专业的数据交换组件，实现网络大数据分析平台同其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。

　运维管理和平台安全对于网络大数据分析平台至关重要，通过专业的安全管理模块和运维管理模块，实现平台软硬件一体化运维管理和全方位、端到端、立体的安全管理体系。

　大数据处理和分析组件是平台建设的核心，该项目采用业界成熟的、标准的、经过大量案例验证成功的技术路线。Hadoop作为业界大数据的事实标准，平台将基于Hadoop生态系统实现大数据分析处理，同时采用并行数据库技术，实现分析结果的快速检索和可视化展现，满足网络监控的可视化分析需求。

　2.2 功能架构

　网络监控大数据分析平台的功能架构如下图所示，基于系统整体架构的设计，网络监控大数据分析平台功能主要包括五层：基础设施层、数据资源层、分析服务层、接口层和应用层，以及五个支持功能组件构成：安全管理、运维管理、数据可视化、数据交换和流量采集。平台基于主流大数据技术构建，符合主流云架构开发要求，满足部信息中心云架构开发要求。各部分主要功能简述如下：

　图2：系统功能架构设计图

　基础设施层主要提供基本计算资源、存储资源和网络资源，考虑平台的开放性和兼容性，支持云平台构建，兼容符合业界主流的开放式云架构。

　数据资源层是大数据平台的核心，主要提供大数据分析处理的存储和计算组件。首先通过实时流量收集模块，将采集器实时采集的数据收集成流量数据文件，之后写入FTP服务器，形成流量数据缓存库；之后通过专业的ETL工具，将采集的流量数据进行清洗、转换，转载进大数据平台，形成流量监控基础资源库，以供上层业务分析使用。之后根据大数据分析业务的需求，将基础资源库中的数据进行集成处理，形成专业的主题库，包括流量专题库、用户专题库和应用专题库；依据上层统计和数据挖掘、机器学习的需要，提供专业的数据服务，包括MapReduce JAVA API，SQL，HBase API，HQL等；同时提供针对专题库的数据管理功能，能够对数据质量进行管理，包括元数据管理、数据质量管理、数据提取规则等。

　分析服务层主要用于实现网络监控大数据分析业务，包括业务模型和算法管理。业务模型主要包括：用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别。算法管理主要提供基本的大数据分析算法，包括：趋势预测、特征分析、关联规则、分类分析、聚类分析、个性化推荐等。

　接口层主要用于提供数据访问的接口，用于分析结果的可视化展现，包括ESB数据服务总线、Web服务接口和SQL接口等，支撑上层业务门户的可视化展现。

　应用层主要用于提供上层业务门户对分析结果的可视化展现，包括：应用的精准推送、网络流量预测分析、行为识别、应用关系分析。同时要提供门户基本的管理功能。

　运维管理模块主要用于平台整体的运维管理，包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。

　安全管理主要用于构筑整体网络监控大数据平台的安全防护，主要功能包括：用户管理、访问控制、日志管理、HA管理、数据加密、容灾备份等。

　数据可视化组件用于分析结果的展现，平台提供两种数据展示方式：报表展现、图形化展示。

　数据交换组件主要用于满足平台对同其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。主要包括：数据导入、数据导出两个功能模块。

　数据采集主要用于网络流量数据的采集和协议解析。主要功能模块包括：网络流量采集、协议解析、流量数据实时发送。

　2.2.1 应用层

　应用层为用户提供统一的门户和应用集成服务，实现网络大数据分析的各项业务功能，其主要功能包括两方面：业务功能和门户管理功能。

　业务功能：提供上层业务门户对分析结果的可视化展现，包括：应用的精准推送、网络流量预测分析、行为识别、应用关系分析，应用画像、定制行为识别等。

　门户管理功能：如统一的待办任务工作台、统一的消息提醒、统一的预警信息等等。基于该产品集成各类应用系统，可实现权限管理、账号管理、单点登录、在线帮助、应用日志和审计、门户个性化等，基于标准规范之上，持续改善用户体验。

　2.2.2 接口层

　接口层主要用于提供数据访问的接口，用于分析结果的可视化展现，包括ESB数据服务总线、Web服务接口和SQL接口等，支撑上层业务门户的可视化展现。

　业务门户在访问数据分析结果时，可以通过接口层提供的访问接口，直接访问数据分析结果。

　2.2.3 分析服务层

　2.2.4 数据资源层

　数据资源层是大数据平台的核心，主要提供大数据分析处理的存储和计算组件。首先通过实时流量收集模块，将采集器实时采集的数据收集成流量数据文件，之后写入FTP服务器，形成流量数据缓存库；之后通过专业的ETL工具，将采集的流量数据进行清洗、转换，转载进大数据平台，形成流量监控基础资源库，以供上层业务分析使用。之后根据大数据分析业务的需求，将基础资源库中的数据进行集成处理，形成专业的主题库，包括流量专题库、用户专题库和应用专题库；依据上层统计和数据挖掘、机器学习的需要，提供专业的数据服务，包括MapReduce JAVA API，Spark，SQL，HBase API，HQL等；同时提供针对专题库的数据管理功能，能够对数据质量进行管理，包括元数据管理、数据质量管理、数据提取规则等。

　数据资源层由以下部分组成：

　? 实时流量数据收集：收集采集器实时采集的流量数据，写入FTP服务器，形成流量数据缓存库。

　? 流量数据缓存库：存储采集组件实时采集的网络流量数据，供ETL工具使用。

　? 数据ETL处理：用于流量数据的清洗、转换和装载。主要用于流量数据的预处理和加载。

　? 流量监控基础资源库：主要用于存储基本的流量数据，是流量数据的全集。

　? 专题库：根据大数据分析业务的需求，将基础资源库中的数据进行集成处理，形成专业的主题库，包括流量专题库、用户专题库和应用专题库。

　? 数据服务：基于大数据分析模型和算法的需求，提供基本的数据服务，包括MapReduce JAVA API，Spark，SQL，HBase API，HQL等数据访问服务。

　? 数据管理：根据大数据应用要求对汇聚的数据资源进行组织、管理和高效率运算，

　? 基于大数据架构的数据资源组织与计算：根据大数据应用要求对汇聚的数据资源进行组织、管理，包括元数据管理、数据质量管理、数据提取规则等。

　2.2.5 基础设施层

　基础设施层主要提供基本计算资源、存储资源和网络资源，考虑平台的开放性和兼容性，将支持两种方式构建基础设施，采用主流的云架构，包括华为云、阿里云、百度云等；一种采用独立硬件提供，包括计算存储服务器、独立的网络设备等。

　2.2.6 数据可视化

　数据可视化组件用于分析结果的展现，平台提供两种数据展示方式：报表展现、图形化展示。

　2.2.7 数据交换

　2.2.8 流量采集

　数据采集层对整个平台提供数据支撑，通过多种方式获取丰富的数据。采集层可以通过专用网络数据采集器采集网络数据，通过网管系统获得网络管理数据，可以通过网络设备获取网络设备日志。采集器部署在部，省，市三级的数据中心及网络出口，可以获取用户及应用的网络数据。专用的高性能采集器采用深度报检测（DPI）技术，对网络数据进行实时分析，抽取。通过专用采集器的实时分析处理，将网络数据进行千分之一的信息整理，根据业务需要将数据按照指定格式上送到数据仓库。

　2.2.9 运维管理

　运维管理模块主要用于平台整体的运维管理，包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。

　2.2.10 安全管理

　安全管理主要用于构筑整体网络监控大数据平台的安全防护，主要功能包括：用户管理、访问控制、日志管理、HA管理、数据加密、容灾备份等。

　3 平台建设需求

　该项目用于构建网络大数据分析平台，通过专业的网络流量数据包采集工具，获取网络运行数据，基于大数据分析技术，进行专业的数据统计和算法分析，进行可视化展示，支撑业务的发展。总体架构如下图所示：

　图3：系统总体架构设计图

　总体上项目建设需求可分为业务门户需求、业务功能需求，大数据处理分析需求，ETL处理分析需求，基础设施需求，数据采集需求，实时流量数据收集需求，数据交换模块需求，数据可视化需求，安全管理需求，运维管理需求等。具体描述如下：

　3.1 业务门户功能需求

　3.1.1 业务功能需求

　业务门户主要用于对分析结果的可视化展现，包括：应用的精准推送、网络流量预测分析、行为识别、应用关系分析。同时要提供门户基本的管理功能。

　3.1.2 门户管理功能需求

　门户管理功能：如统一的待办任务工作台、统一的消息提醒、统一的预警信息等等。基于该产品集成各类应用系统，可实现权限管理、账号管理、单点登录、在线帮助、应用日志和审计、门户个性化等，基于标准规范之上，持续改善用户体验权限管理。其中安全管理要求将通过统一的安全管理模块建设。

　权限管理

　权限管理是信息系统信息安全基础设施的重要组成部分，是信息系统授权管理体系的核心。权限管理功能主要包括：

　1. 组织机构管理：当前组的修改和查询,对下级组的增加、删除、修改、查询以及对组中用户、角色、资源的维护；

　2. 用户管理：实现用户的增加、删除、修改、查询、权限查询、用户授权以及更换用户所在组等功能；

　3. 角色管理：实现角色的增加、删除、修改、查询以及权限的分配、角色许可的维护；

　4. 资源管理：完成资源的增加、删除、修改、查询以及下级资源的增加、删除、修改、查询,资源的许可维护；

　5. 菜单管理：实现选中菜单的修改，以及其下级菜单的增加、修改、删除功能；

　统一账号管理

　对目前各系统账号进行的统一管理，一旦建立账户管理系统之后，以后新建系统将会直接使用此账户管理系统，并通过此系统完成用户身份认证和用户信息查询等功能。统一认证支持证书、密码等方式，原系统密码变更不会影响单点登录。

　单点登录

　支持J2EE和asp.Net两种平台下应用系统的单点登录，支持B/S、C/S 架构的系统集成。当用户一次登录门户后，便可以很方便的登录到其他系统，而无须重复输入用户名和密码，从而真正实现了组织内无障碍漫游。

　应用日志与审计

　1. 提供审计功能，以日志的形式记录用户操作。通过设置资源的“是否审计”参数可以记录用户对这些敏感资源（用户增加、删除、授权等等）的访问情况，如访问时间、类型、用户、用户组、用户IP地址等;

　2. 提供过期日志备份机制。系统提供按时间、部门、用户、IP地址、行为等条件对各类日志的查阅功能。通过查看用户的访问日志，对登录平台后的用户操作进行监督、管理，以便出现问题及时解决，保证系统的正常运行;

　3. 通过授权访问控制功能，只对有权限访问审计信息的角色分配审计相关资源，记录用户对审计信息的操作日志，防止审计信息被人为修改、伪造和删除，保证审计信息的准确性;

　个性化门户

　提供统一的访问界面、访问形式，实现多个系统之间信息集成，支持每个用户根据自己的喜好定制门户

　在线帮助

　系统提供每个菜单（功能模块）的在线帮助功能，便于指导用户操作

　通知公告

　系统提供在线发布公告、任务提醒功能，在系统首页中统一展示公告、任务提醒、提示性消息等

　3.2 业务功能需求

　3.2.1 应用识别

　应用识别介绍

　链路中的每个流量包，均来源于各类应用，或为用户请求应用服务的请求信息，或为应用响应用户情况的反馈信息，如何识别各个流量包背后的应用以及分类，哪些流量包是来源于同一个应用，它们有哪些共同特征或者个性差异，不同的流量包又是通过什么样的算法或者逻辑归结为同一个应用，这是应用识别范畴需要解决的事情。

　只有通过应用识别，各个流量包才能找到业务载体，也才有流量分析的业务价值，才能实现一系列的应用刻画、用户刻画，才能挖掘应用与应用的关系，才能分析重点应用的数据特征并为之保驾护航，才能为流量的智能调度提供的依据。总而言之，应用识别是网络流量大数据分析与管控的业务基础。

　应用识别价值

　对每一个流量包识别了来源于哪个应用的基础上，才能更好的开展一系列基于流量的应用分析，并为重点应用的服务和保障工作提供信息支持。

　应用识别模型构建

　鉴于流量包的数量过于庞大，若要实时监控每条件流量并且进行识别，不但做不到很好的实时效果，也会使得大数据平台的很大部分资源耗费在应用识别动作上，系统可根据大数据平台资源耗费状况，在空闲的时段自动开启识别程序，也可以因特殊情况的需要，由人工启动识别程序。

　应用识别涉及算法

　1）对每个流量包进行应用识别；

　2）可智能启动识别程序，也可根据个性化要求，设置启动时间与周期；

　3）应用识别核心算法，根据流量大小、流量特征、流量发生IP等要素，构建应用鉴别规则。

　4）对每个识别出来的应用进行入库处理，随即要与已报备应用进行比对，筛选出未报备的应用以供人工确认；

　应用识别输出

　1）提供数据列表，展示每个根据流量数据识别出来的应用。

　2）提供人工确认信息录入功能，记录与保存人工确认的信息；

　3）应用报备数据项可根据部门要求，确定报备信息项，如包括：应用IP、应用名称、应用范围、应用部署硬件环境、集群方式、用途、与其他应用的明确关系等等。

　3.2.2 流量展示及异常流量识别

　流量展示介绍

　流量展示功能是需要准确展示内网中的流量，统计出内网的各个链路的流量中，都有哪些数据和应用、每个应用的流量大小、服务时段、这个应用在为哪些系统和用户在服务，以及详细的流量信息。尤其重要的，是对某些时候异常流量的及时识别，继而可以进行相应的链路调整，防止引起更大的网络故障。

　流量展示价值

　流量展示为管理者观察和了解链路流量的情况提供直观的方式，便于开展流量的调度和应用服务保障策略的制定。异常流量对网络运行影响很大，对网络突发流量或异常流量的及时识别及调整，有利于增强网络稳定性，避免网络拥塞。

　流量展示模型构建

　通过一系列的统计算法，结合时间、地域、次数等维度表现应用、链路和用户三个关注对象的流量情况。异常流量识别有单独的监控展示。

　流量展示涉及算法

　1）以应用为主体，以日/周/月为周期，统计上行流量/下行流量/连接次数/连接用户数/连接时常；

　2）以用户为主体，以日/周/月为周期，统计上行流量/下行流量/连接次数/连接应用数/连接时长；

　3）以链路为主体，以日/周/月为周期，统计上行流量/下行流量/承载应用个数/承载用户个数；

　流量展示输出

　1）全国流量分布图，展示公安部与各地间的数量值；

　2）钻取每条链路、表现出该数量值下各个时间点的数据量值；

　3）钻取每条链路、表现出该数量值下各类应用的占比；

　4）钻取每条链路、表现出给数量值下流量排名TOP10的应用名称。

　5）实现前一天与7日均线的比较图表。

　6）异常流量相关信息展示。

　3.2.3 流量智能调度

　流量智能调度介绍

　随着信息化进程的推进，整个网络流量及内容都呈现了爆发式的增长。目前网络中存在了大量的应用，覆盖各个岗位。但部分区域出现了流量拥塞和网络服务质量下降的情况。大量流量导致带宽资源不足，但是这种带宽不足表现为相对忙时带宽不足和非忙时的带宽空闲并存。

　如何解决这类问题，目前的主要手段是链路扩容，但当我们带宽从10M，扩到100M，扩到1G，甚至扩到10G，网络中依然出现忙时拥塞等带宽资源不足的情况。

　通过大数据分析技平台的建设，给我们对这个问题带来了新的解决思路，可以根据网络流量的预测分析结果对网络资源进行有效的规划，针对内网中大量潮汐类应用，我们就可以规划一些数据备份类、系统更新类应用（数据量传输无白天或者夜间的限制），与潮汐类应用错峰使用，安排在晚上空闲时段，提升现有带宽利用率，在不增加带宽的基础上提高各类应用的网络传输质量，避免网络拥塞。还可以通过网络资源趋势分析，可以预测网络的流量增长规模，预测应用增长趋势，指导后续整体网络规划。

　流量智能调度，是指针对网络中由于网络流量不均匀占用，使得应用服务质量下降的问题，能够通过网络拥塞点预测，进行智能调度，提高网络资源使用率，优化应用服务质量。

　流量智能调度，支持：

　1) 离线分析指定链路或指定应用（某一个或某一类）的历史数据，得到链路的拥塞模型，能够通过该模型进行拥塞点的预测，根据预测结果进行通知，或自动下发控制策略。（预测模型可根据实际结果进行模型自身的修正。）

　2) 实时监控指定链路或指定应用的（某一个或某一类）网络情况，当检测到拥塞后，下发网络控制策略。这一功能需要后期项目增加相应的硬件设备后才能提供。

　流量智能调度价值

　1) 通过网络资源趋势预测分析，提升现有带宽利用率，在不增加带宽的基础上提高各类应用的网络传输质量，避免网络拥塞。

　2) 通过网络资源趋势预测分析，可以预测网络的流量增长规模，预测应用增长规模，指导后续整体网络规划。

　流量智能调度模型构建

　1. 流量调度涉及的数据特征有：

　1) 日期

　2) 源IP地址

　3) 目的IP地址

　4) 源端口号

　5) 目的端口号

　6) 协议类型

　7) 时间区间T内的流入流量

　8) 时间区间T内的流出流量

　9) 时间区间T内最大速率

　10) 时间区间T内最小速率

　11) 时间区间T内平均速率

　12) 时间区间T内的总访问人数

　13) 时间区间T内的总访问次数

　14) 每天繁忙时间区间

　15) 时间区间T内的总访问时延

　16) 时间区间T内网关超时的次数

　17) 目的地域标识

　18) 时间区间T内的服务质量QoE

　19) 时间区间T内的输入包个数

　20) 时间区间T内的输出包个数

　21) 时间区间T内的输入字节数

　22) 时间区间T内的输出字节数

　2. 将一天的网络流量数据，按照时间区间T的定义(例如5分钟)，划分为多个时间段，分别计算每个时间区间段内的数据特征，例如计算08:00到08:05内的流入流量、流出流量、最大速率、最小速率、平均速率、总访问人数、总访问次数等。

　3. 将流量调度的数据特征，以“日期，特征1，特征2，…，特征N”的形式表示，其中，每行表示某天内的网络流量数据记录，对于无时间属性的特征，一行只有一个，对于具有时间属性的特征，每个时间区间一个；例如“源端口号”一行只有1个；“平均速率”按照5分钟划分，一天有288个。

　4. 将多天网络流量的数据特征，按照“日期，特征1，特征2，…，特征N”的形式表示为多条文本，并通过数据归一化处理为数值型矩阵。

　5. 离线分析指定链路或指定应用（某一个或某一类）的历史数据，得到链路/应用的拥塞模型，能够通过该模型进行拥塞点的预测，根据预测结果进行通知，或自动下发控制策略。（预测模型可根据实际结果进行模型自身的修正。）

　6. 在线实时监控指定链路或指定应用的（某一个或某一类）网络情况，当检测到拥塞后，下发控制策略。

　流量智能调度涉及算法

　1) 时间序列

　2) SVM

　流量智能调度模型输出

　流量智能调度模型的输出结果为：

　1) 时间区间T1网络参数+时间区间T2网络参数+…+时间区间Tn网络参数

　2) 其中，网络参数为，建模过程中选择的与时间属性相关的数据特征，例如：流入流量、流出流量、最大速率、最小速率、平均速率、总访问人数、总访问次数。

　3) 当需要预测未来某天某个时刻的网络拥塞点时，只需要输入指定时刻所在的时间区间T。

　3.2.4 用户画像

　用户画像，是大数据时代个性化技术的典型代表，相比传统的问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、用户偏好等重要信息，提供了足够的数据基础。用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。

　用户画像介绍

　所谓用户画像，就是通过关键词对用户特征进行描述，例如：

　男，31岁，已婚，网络技术，运维，云搜。

　这样一串描述就是用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。以互联网为例，如图3.8所示：

　随着大数据时代到来，信息呈井喷式增长，如何快速准确的从海量数据中挖掘出每个用户的高维特征标签，如同海里捞针般艰难。大数据具有以下4V特征：

　1) Volume：海量的数据规模(TB ->PB->EB->ZB) ，尤其是非结构化数据的超大规模增长；

　2) Velocity：快速的数据流转和动态的数据体系，数据增长快，实时分析而非事后分析；

　3) Variety：多样的数据类型，文件、电子邮件和视频等非结构化信息约占未来十年数据产生量的90%；

　4) Value：巨大的数据价值，对未来、行为模式等预测分析，传统思维下，单位价值密度低。

　如何以低成本的方式快速的在海量数据中挖掘出有价值的信息是对并行计算的基本需求。而所有的大数据分析，都是要以人为本，“用户”才是王道，网路大数据平台中，通过用户画像模型，能更高效、更显著的体现大数据的价值所在。

　网络大数据分析平台中的用户画像，能够提供以下功能：

　1) 用户偏好挖掘及标签特征表示，例如：用户A，网络，技术牛人，云搜；

　2) 正常用户、非正常用户的划分和特征分析，即对所有用户进行聚类，划分为两类，并对每个类进行特征分析，例如：正常用户类别的特征是：单位时间内访问应用的次数小于阈值A+每天在线时间总长不超过阈值B；相反的就是非正常用户的特征；

　3) 跨域访问应用的用户列表及分析，例如：陕西用户A访问北京应用K；

　4) 基于活跃度的用户划分，例如：

　用户A，活跃度10非常活跃

　用户B，活跃度5普通活跃

　用户C，活跃度0.5不活跃

　用户画像价值

　用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢刑侦技术的用户有多少？喜欢刑侦技术的人群中，男、女比例是多少？也可以做数据挖掘工作：利用关联规则计算，喜欢刑侦技术的人通常喜欢什么类型的影视剧？利用聚类算法分析，喜欢刑侦技术的人年龄段分布情况。

　1) 通过用户画像之偏好挖掘的层面描述，为更精准的推送用户感兴趣的应用提供基础模型，从而增强用户粘性。

　2) 通过用户画像之用户分类的层面描述，能够为应用提供非正常用户列表，为进一步的高危人员分析提供数据支撑。

　3) 通过用户画像之用户地域分析的层面描述，能够为应用提供跨域访问的用户列表，为进一步的跨域原因分析提供数据支撑。

　用户画像模型构建

　数据来源

　构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。大体分为静态数据和动态数据。

　1. 静态数据

　静态信息数据：用户相对稳定的信息，主要包括人口属性(如性别、年龄、籍贯、血型、婚姻状态等)数据，可直接从部资源库获取。

　2. 动态数据

　动态数据：用户不断变化的行为信息，广义上讲，一个用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是用户行为。当行为集中到互联网，用户行为就会聚焦很多，例如浏览部官网首页、在云搜中搜索视频、发表关于某项整改活动的微博等等均可看作互联网用户行为。动态数据可通过数据采集器，从网络中采集解析得到。

　数据特征

　用户画像的数据特征有：

　1) 用户静态数据

　2) 是否访问多类的核心组件

　3) 平均每天访问的应用数

　4) 平均每天访问的次数

　5) 用户活跃程度

　6) 平均每天活跃时段

　7) 平均每天流出流量

　8) 平均每天流入流量

　9) 用户请求中客户端类型个数

　10) 用户客户端浏览器类型个数

　11) 用户归属地标识

　12) 平均每天跨域访问的应用数

　13) 平均每天本地域访问的应用数

　14) 平均每天访问成功响应的次数

　15) 平均每天访问的非成功响应的次数

　16) 用户访问的协议类型个数

　17) 平均每天访问被拒绝次数

　18) 平均每天访问请求超时次数

　19) 平均每天访问返回错误请求的次数

　20) 平均每天访问返回无内容的次数

　21) 平均每天访问返回临时重定向次数

　22) 平均每天访问返回禁止访问的次数

　23) 平均每天访问返回执行失败的次数

　24) 平均每天访问返回网关超时的次数

　25) 平均每天访问返回内部服务器错误的次数

　26) 平均每天访问服务不可用的次数

　27) 每天搜索的关键词列表；

　建模方法

　1. 用户偏好标签

　通过事件模型描述一次行为；一个事件模型包括：时间、地点、人物三个要素。可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

　1) 什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位

　2) 什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒）；时间长度，为了标识用户在某一页面的停留时间。

　3) 什么地点：用户接触点，Touch Point。对于每个用户接触点包含两层信息：应用网址 + 内容。网址：每一个应用url链接（页面/屏幕），即定位了一个应用地址。什么内容：每个url网址（页面/屏幕）中的内容。可以是应用基本信息：应用类别、所属岗位、核心功能描述、关键词描述等等。如，人口库，所有人口、请求服务，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

　4) 什么事：用户行为类型，对于系统，用户行为类型分为：浏览、搜索、评论，收藏。不同的行为类型，对于接触点的内容产生的标签信息，具有不同的权重。如，评论权重计为5，浏览计为1。

　用户画像的数据模型，可以概括为下面的公式：用户标识 + 时间 + 行为类型 + 接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上**标签。用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：标签权重=衰减因子×行为权重×网址子权重。

　2. 用户划分：

　1) 将用户画像的数据特征，以“用户A，特征1，特征2，…，特征N”的形式表示，其中，每行数据表示一个用户，在该行中，“特征K”表示该用户的第K个特征项，例如可以是“平均每天跨域访问的应用数”。

　2) 将多个用户的数据特征，按照“用户A，特征1，特征2，…，特征N”的形式表示为多条文本，并通过数据归一化处理为数值型矩阵。

　用户画像模型构建的整体流程：

　1) 用户行为数据采集并处理

　2) 用户行为数据特征抽取

　a) 用户画像涉及到的数据特征，一部分需要通过开发算子完成，例如“是否访问多类核心组件”，就需要将用户访问的所有应用信息，通过核心信息库的数据映射，进一步计算该用户是否满足这项指标。

　b) 用户画像涉及到的数据特征，一部分需要通过报表统计的结果获取，例如平均每天访问的应用数等。

　c) 用户画像涉及到的数据特征中，用户归属地标识，则需要通过IP地址归属地信息库进行查询；

　3) 构建用户画像训练数据，将多个用户的历史数据，通过特征抽取，数据归一化等处理后，整理为算法的输入数据

　4) 选择算法库算法，进行模型计算

　5) 通过模型调优，得到并保存模型

　用户画像涉及算法

　1) 用户偏好分析

　2) 分类算法

　3) 聚类算法

　4) 特征工程

　用户画像模型输出

　1) 用户画像模型的输出结果为：用户偏好特征库 +用户活跃度类别；

　2) 每行表示一个用户的偏好特征，以“用户标识，偏好1，偏好2，…,偏好N，活跃度类别”表示。

　3.2.5 应用关联关系

　应用关联关系介绍

　分析挖掘应用之间内部相互依赖的社团关系(例如防控系统，依赖人口库、人口库依赖地方户籍库等)，识别出每个“社团”的核心应用组件，以及该应用组件有依赖的其他应用。并且能够形象的通过图展示(例如树状)的方式展示出来。例如，“社团1,核心组件：出入境管理应用，依赖组件：人口资源库、在逃人员库、绿卡系统、外国人管理系统”。

　应用关联关系价值

　通过应用之间的依赖关系挖掘，可以带来以下功效：

　1) 识别部系统的核心应用组件，进行重点运维保障，根据分析结果合并、拆分应用系统，提升应用的用户体验（如果两个系统有较大的关联性，我们就可以作一定的整合，便于用户使用）。

　2) 可将具有关联关系的此类应用主动推送给使用此类某应用较多的用户，可以帮助用户在内网内更快捷的找到自己所需资源，

　3) 提升内网内应用的使用率，达到推广热点系统和先进系统的目的。

　应用关联关系模型构建

　1) 应用关联关系定义：应用内部业务逻辑形成的应用内部之间的依赖关系 + 应用同时被访问而形成的外部关联关系。

　2) 罗列所有应用的访问特性，例如单向依赖，双向依赖，三角依赖、多跳依赖等关系。

　3) 将具有关联关系的应用，以有向边表示，即：“应用A，应用B，关系依赖程度”三个字段表示，其中，每条数据表示一条关系，也就是图中的一条有向边，应用A和应用B表示图中的两个顶点，而“关系依赖程度”表示图中边的权值。

　4) 应用关联关系数据特征表示形式：

　应用A 应用B 关系依赖程度D

　表示：应用A依赖于应用B，依赖程度为D( 0 < D <=1)

　应用关联关系模型构建的整体流程：

　1) 网络数据采集并处理

　2) 应用关联关系数据特征抽取

　a) 应用关联关系数据特征，一方面需要根据应用内部逻辑原理，得到应用内部的相互依赖的关联关系。

　b) 应用关联关系数据特征，另一方面需要根据应用同时被访问的外部关联关系。

　3) 将具有关联关系的应用，以“应用A，应用B，关系依赖程度D”的形式表示有向边集合，作为算法输入数据；

　4) 选择图挖掘算法，进行模型计算

　5) 通过模型调优，得到并保存模型

　图3.8 基于图挖掘的应用关系分析

　应用关联关系涉及算法

　1) 有向图遍历

　2) 社团发现

　3) 关联规则

　应用关联关系模型输出

　1) 应用关联关系模型的输出结果为：社团信息，即：社团编号、社团leader、社团成员；

　2) 每行表示一个社团，以“社团编号、社团leader、社团成员1，社团成员2，…社团成员K”表示。

　3.2.6 应用画像

　应用画像介绍

　所谓应用画像，是指对内网中的所有应用，从多个维度、多个方向、多个层面进行描述、分析、挖掘和展示。例如基于应用类别层面的应用画像、基于应用流量趋势预测层面的应用画像。

　1) 支持以下维度应用流量趋势预测的应用画像描述

　1) 指定地域

　2) 指定链路

　3) 指定类别

　4) 应用流量

　5) 应用访问次数

　6) 应用服务质量

　2) 支持基于应用类别划分的应用画像描述，例如，将应用分为：视频类、数据备份类、请求服务类、数据比对类等。

　应用画像价值

　1) 通过应用分类模型，当有新的应用上线后，可进行分类预测，为用户推送相同类型的应用作为基础数据模型。

　2) 通过应用流量的趋势预测，可作为应用评价指标之一(例如应用活跃度、应用热点)，也可以作为针对每个应用的自身发展趋势的预测。

　3) 通过应用流量预测分析，指导应用系统的建设，保证基础网络更好的支撑上层应用。

　应用画像模型构建

　1. 应用画像涉及的数据特征有：

　1) 是否系统

　2) 是否核心组件

　3) 是否全天候

　4) 平均每天访问人数

　5) 平均每天访问次数

　6) 应用繁忙程度

　7) 平均每天繁忙时段

　8) 平均每天流出流量

　9) 平均每天流入流量

　10) 平均每天并发连接数

　11) 应用支持的客户端类型个数

　12) 应用支持的客户端浏览器类型个数

　13) 平均每天的访问时延

　14) 应用的归属地标识

　15) 平均每天跨域访问的用户数

　16) 平均每天本地域访问的用户数

　17) 平均每天访问的正常用户数

　18) 平均每天访问的非正常用户

　19) 应用支持的协议类型

　20) 平均每天应用访问被拒绝次数

　21) 平均每天应用访问请求超时次数

　22) 平均每天应用访问返回成功的次数

　23) 平均每天应用访问错误请求的次数

　24) 平均每天应用访问无内容的次数

　25) 平均每天应用访问无内容次数

　26) 平均每天应用访问临时重定向次数

　27) 平均每天应用访问禁止访问的次数

　28) 平均每天应用访问返回执行失败的次数

　29) 平均每天应用访问网关超时的次数

　30) 平均每天应用访问内部服务器错误的次数

　31) 平均每天应用访问服务不可用的次数

　32) Mac地址

　33) 每天开关机时间

　34) 源地域标识

　35) 目的地域标识

　36) 该类应用的时间段因子

　37) 该应用的服务质量QoE

　38) 应用类别

　2. 将应用画像的数据特征，以“应用A，特征1，特征2，…，特征N”的形式表示，其中，每行数据表示一个应用，在该行中，“特征K”表示该应用的第K个特征项，例如可以是“平均每天跨域访问的用户数”。

　3. 将多个应用的数据特征，按照“应用A，特征1，特征2，…，特征N”的形式表示为多条文本，并通过数据归一化处理为数值型矩阵；

　应用画像模型构建的流程：

　1) 应用被访问的行为数据采集并处理

　2) 应用行为数据特征抽取

　a) 应用画像涉及到的数据特征，一部分需要通过开发算子完成，例如“是否系统”，需要通过核心信息库的数据映射，进一步计算改应用是否满足这项指标。

　b) 应用画像涉及到的数据特征，一部分需要通过报表统计的结果获取，例如平均每天访问的用户数等。

　c) 应用画像涉及到的数据特征中，应用归属地标识，则需要通过IP地址归属地信息库进行查询；

　3) 构建应用画像训练数据，将多个应用的历史数据，通过特征抽取，数据归一化等处理后，整理为算法的输入数据；如果是分类问题，则需要对应用类别打标签，即形成训练数据集中的类别信息；

　4) 选择算法库算法，进行模型计算

　5) 通过模型调优，得到并保存模型

　6) 如果是分类或聚类算法，可对未知应用，通过模型进行预测。

　应用画像涉及算法

　1) 基于时间序列的流量预测

　2) 分类算法

　3) 聚类算法

　4) 特征工程

　以下以分类算法流程为例：

　图3.9 应用分类流程

　1) 数据准备：根据分类规则(例如视频类、备份类、服务类等)，对现网已有典型应用打标签，完成应用类别信息；

　2) 特征选择：根据内网应用和用户使用应用的业务理解，从采集数据集合中提取和定义分类预测特征字段，形成训练数据集；

　3) 模型训练：选择合适的分类算法，完成对训练数据集的分类训练，并针对模型评估方法，对模型进行调优，最后输出分类模型；

　4) 分类预测：对现网类别未知的所有其他应用，通过分类模型，预测该应用的类别，并将预测结果展示或保存。

　应用画像模型输出

　应用画像模型的输出结果为：

　1) 应用标识，应用类别，时间区间T1流量预测值+时间区间T2流量预测值+…+时间区间Tn流量预测值

　2) 每行表示一个应用，多个应用以多个模型组成。

　3.2.7 精准推送

　精准推送介绍

　所谓精准推送，就是指能将用户感兴趣的应用信息或者系统配置的规则信息或者系统管理人员手动配置信息，能够准确实时的推送给目标用户。

　例如某用户对技术论坛关注度高，当省厅或地方新增了类似的技术论坛时，就可以推送给该用户。或者某用户上班期间，由于观看视频消耗流量过大，超过系统指定阈值，则触发预警规则，直接推送给该用户。或者有新应用上线后，则触发新应用推送规则，直接推送给该用户。

　1) 提供基于用户偏好的精准推送；

　2) 提供基于应用画像的精准推送；

　3) 提供基于规则配置的精准推送；

　4) 提供基于手动配置的精准推送。

　5) 系统支持推送规则的灵活配置；

　精准推送价值

　1) 新应用上线后，为避免冷点问题，积极推广该应用；

　2) 对于违反某些规则的用户，系统能实时进行预警干预，进行有效管控；

　3) 通过对用户推送感兴趣的应用信息，增加用户对系统的粘性；

　精准推送模型构建

　1. 基于用户偏好

　1) 根据用户访问云搜的历史记录，提取用户的搜索关键字。

　2) 根据用户访问应用的行为数据记录，提取用户对应用类型的偏好特征；

　3) 通过偏好标签化算法，计算出用户的偏好特征，根据时间衰减因子，更新用户偏好，形成用户偏好特征库；

　4) 对新应用提取关键字特征，形成应用关键字特征向量K；

　5) 获取用户偏好特征库中所有用户的特征矩阵M，

　6) 计算应用特征与所有用户偏好的相似度，对相似度高的用户进行该类新应用的精准推送。

　2. 基于应用画像

　1) 根据应用分类模型，对新应用进行类别预测，从用户偏好特征库中，获取对该类别感兴趣的用户列表，并进行该应用的推送。

　2) 根据应用关联关系模型，对用户推送与应用关联度高的其他应用

　3. 基于推送规则

　1) 系统管理人员制定推送规则，形成规则库，例如超多指定阈值的流量预警、对新用户推送热点应用、对跨域用户推送本地域应用、基于已经在线时长、访问次数等统计信息的推送；

　2) 用户上线后，系统能够自动检测该用户是否能够触发规则推送；

　4. 基于手动配置

　系统管理员可通过手动方式，对指定用户推送指定内容。

　精准推送涉及算法

　1) 用户偏好分析

　2) 关键字提取

　3) 偏好相似度计算

　4) 应用协同过滤

　5) 关联规则

　6) 规则匹配

　精准推送模型输出

　精准推送模型的输出结果为：

　1) 基于用户偏好和应用画像时，输出的是与用户偏好匹配或者与应用具有关联规则的应用列表；

　2) 基于推送规则时，输出的是该条规则触发的结果，例如推送预警或者推送热点应用；

　3.2.8 行为识别

　行为识别介绍

　通过数据采集层将网络中的采集器数据和网络设备的日志进行信息采集并处理，通过关联分析技术提取出部感兴趣的异常行为信息，通过安全态势界面进行呈现，并对异常行为事件做安全响应。

　1) 日志采集：收集网络设备上报的原始日志，将原始日志转换为标准日志字段，将原始日志和标准格式事件发送给日志管理与存储模块。

　2) 日志管理与存储：提供iRadar Web界面对日志采集、日志过滤、查询、关联分析进行配置和管理，并将标准格式事件发送给关联分析模块；将原始日志和标准格式事件进行集中存储。

　3) 关联分析：提供关联分析引擎，通过设置的关联规则分析，完成对异常行为的关联分析，将分析出的异常行为提交给安全态势管理模块。

　4) 安全态势展示：提供全网安全态势管理和显示功能。

　5) 安全响应：异常行为发生后的设备联动，包括对威胁源执行阻断或引流策略。

　6) 远程通知：以邮件或短信方式发送远程告警通知，通知管理员实时发生的异常行为事件。

　行为识别价值

　1) 快速发现安全事件：基于强大的日志采集和关联分析技术，可实时快速发现内网络中的安全威胁事件。

　2) 快速进行安全响应：大大提高安全响应速度和效率。通过告警手段第一时间通知运维人员安全威胁事件，并可以进行自动的安全策略联动，对安全威胁进行控制，防止和降低其对网络和业务的影响。

　3) 感知全网安全状态：图形化界面帮助客户直观理解全网安全态势。

　行为识别模型构建

　1) 检测终端有异常网络行为（如全网IP扫描、发送大量的DHCP/ARP/IGMP报文等），该终端存在中毒或恶意攻击的风险。当大数据平台收到交换机发送的“超过了整机arp-miss限速值”日志或“设备受到攻击时，打印攻击源信息”日志时，触发终端网络攻击安全事件。响应动作默认为给运维人员发送告警信息，也可以选择做设备联动（阻断或引流）。

　2) 病毒行为检测，当大数据平台先收到来自SIG的发现病毒告警，然后针对同一个终端的IP地址在一定时间内（如2分钟）收到了一定次数的告警（如5次），说明该终端病毒已经扩散，触发员工电脑病毒扩散安全事件。根据这个安全事件的响应动作，向运维人员发送告警信息

　3) 检测服务器渗透攻击，大数据平台收到来自SIG采集的流日志，根据行为分析出 “某IP的端口扫描”，将该IP放入可疑IP列表（可保持24小时）。接下来，在一段时间内（如2小时），如果收到服务器发出的在“可疑IP列表中”的IP地址主机登陆到该服务器的日志，则触发“服务器渗透攻击”安全事件。此安全事件的响应动作设为“向运维人员发送告警信息”。

　4) 密码猜测检测，一般的设备（网络设备、服务器等）都有admin或者root这样的用户名，某个内网IP针对这些关键设备进行密码猜解，该IP每个设备尝试3次，并没有违反规定。但是如果攻击者使用该IP在短时间内（如1小时）对大量设备（如100台）进行了密码猜解尝试（登录账号错误，登录失败），该用户很可能是在通过密码猜解尝试登录的方式入侵设备，那么可认为该行为是有信息安全威胁的行为。大数据平台一段时间内（如1小时）收到某IP登陆设备失败的日志，次数达到阈值（20次），这些日志来自多个关键设备，如交换机、路由器或服务器，触发关键设备登录密码猜解的安全事件。根据这个安全事件的响应动作，向运维人员发送告警信息。

　5) 关键资产检测，当设备或者服务器长时间（这个时间可针对不同的设备日志基线定义）没有发日志的时候，说明这个设备出了问题。要么是设备本身故障了，要么是设备发日志的功能出问题了，或者是被人恶意关闭了。针对不同类型的设备会定义基线。（IT当前更多的是服务器，比如域控制服务器的域控登陆日志等）。关联规则为当发现某设备长时间（如一个工作日）没发日志的信息时，触发关键资产长期未上报日志的安全事件。根据这个安全事件的响应动作，向运维人员发送告警信息。

　6) NAT群组构建行为检测，每一个服务器或者用户机器，在公安内网均要指定唯一公安网实体IP，目前有些地方，由于IP数量的限制私设了NAT群组，群组成员只有局域网IP而没有公安网实体IP，导致相关成员的行为得不到有效的管控与管理，存在安全与涉密隐患。行为识别模块需要建立该行为的识别模型，通过流量数据分析出NAT行为的主题和地区，并向管理者发出预警信息。

　7) 爬数据行为检测，结合爬数据的行为特征，构建爬数据检测模型，按照流量的发生时间、周期性、数据包特征，检测出符合爬数据行为特征的主体IP和责任单位，并向管理者发出警告信息。

　行为识别涉及算法

　1) 模式识别与匹配

　2) 关联关系分析

　3) 行为识别特定算法

　行为识别模型输出

　行为识别模型的输出结果为：

　1) 流量异常：对应用进行分析，以天为单位，筛选昨日流量超过7天平均值一定比例的应用，并可钻取访问用户。

　2) 次数异常：对应用进行分析，以天为单位，筛选昨日方位次数超过7天平均值一定比例的应用，并可钻取访问用户。

　3) 发生时间异常：对用户进行分析，分析该用户未在其常规时间段访问应用的行为。

　4) 访问对象异常：对用户进行分析，对之前未访问过某一应用，突然发生访问行为。

　3.3 数据可视化需求

　1. 展示效果技术要求：

　a) 支持丰富的展现：支持可视化效果的自定义及展示方式的可选择性。支持一种数据采用多种图形进行展示，同时也支持多维度数据的组合展示功能。需具有更丰富的展现方式，符合互联网大数据展现的基本趋势，能充分满足数据展现的多维度要求；

　b) 可提供从整体到局部的基于网络信息的多种分析模型，从地理、时间、逻辑等多维度建立全局视角。允许管理者从整体到局部的进行深入的分析，对价值信息实时监控，实时跟踪，可控、可回溯；

　c) 可对关键信息进行度量和可视化呈现。聚焦关键目标，可对图表、组件进行可视化及情感化的视觉呈现；

　d) 展示方式可根据需要进行定制，支持展示方式及效果自定义。用户可根据需要定制展示的图形图表；

　2.展示风格要求：

　a) 自然化的阅读与操作，采用符合常见认知的“自然化设计”语言；

　b) 突出信息，保障信息的可获得性和易读可读，使界面回归阅读的本质；

　c) 丰富平滑的动态效果，契合大数据平台可视化需求; 低调,平静,明快的配色;

　d) 实时性：快速的收集分析数据、并对数据信息进行实时更新，刷新间隔不少于1分钟;

　e) 简单操作：大数据平台应具备快速开发、易于操作的特性，能满足部数据分析需求不断演进信息多变的特点;

　3.4 大数据处理分析组件建设需求

　网络大数据分析处理平台应采用主流大数据技术构建。采用分布式存储技术构建数据持久化存储能力，运用分布式并行计算、内存计算和流式计算等计算模型，提供批处理分析、准实时分析和实时分析能力，实现大规模和复杂类型数据的综合处理，为上层业务分析功能提供有效的技术支撑；基于网络大数据分析的业务类型，构建大数据分析算法池，为平台提供大数据分析能力。同时提供统一的数据服务模块，用于分析结果的可视化展现，具体要求如下：

　1. 大数据分析处理组件应基于开源Hadoop技术构建，保持开放性，提供兼容社区版Hadoop的所有组件能力。并在可靠性、安全性、管理性方面进行了增强，不使用私有架构。

　2. 应提供海量结构化数据的存储、查询和分析能力；能够提供复杂的数据挖掘和机器学习算法库，实现复杂的处理分析。

　3. 应提供丰富的数据访问接口，支持以SQL，JDBC，Java，Scala等方式访问平台数据，提供图形化的SQL编辑查询界面。

　4. 具备大数据分析平台能力。该平台具备数据可视化、特征工程、数据建模以及机器算法学习库的功能，能够支持基于10000维对象特征建模。

　5. 组件供应商具备提供自研的大数据业务开发平台能力。该平台支持分布式业务部署、消息队列和服务治理的功能。

　6. 应提供自研的数据集成工具，用于平台与关系型数据库、文件系统、FTP和数据采集工具之间进行交换数据的能力。

　7. 应支持在HDFS/HBase与关系型数据库、文件服务器间进行双向数据导入或者导出，同时在数据导入导出过程中，支持对文件进行合并、过滤、编解码格式转换等功能。

　8. 大数据分析处理组件应具有二次开发能力。提供应用开发助手，提供完整场景式的开发样例工程，样例工程直接可运行。

　9. 数据集成工具导入（导出）文件时，支持对文件进行转换编码格式，支持的编码格式为jdk支持的所有格式。

　10. 分析处理组件的HBase组件，需要支持二级索引的功能，提供系统提供提供聚簇表/聚簇索引框架，确保数据分析性能。

　11. Yarn组件支持容器可重用功能，减少容器重分配和初始化动作，提高MapReduce的处理性能。

　12. 应支持根据业务优先级进行MapReduce任务调度的功能，对于高优先级的业务，将优先保证业务资源，确保高优先级任务能够按时完成。

　3.4.1 数据服务模块建设要求

　应基于大数据技术构建数据服务功能，提供标准的数据服务接口，包括：ESB数据服务总线、Web服务接口和SQL接口等，支撑上层业务门户的可视化展现。业务门户在访问数据分析结果时，可以通过接口层提供的访问接口，直接访问数据分析结果。具体要求如下：

　1、建设标准化、模块化、插件式的数据服务模块，形成专门的服务接口配置管理工具，实现服务接口的规范化自定义配置、一体化授权和调用日志的格式化自动采集；

　2、实现外单位授权服务接口的透明访问和应用日志的格式化自动采集。在完成基础数据服务和服务接口配置管理工具基础上，重点开展数据查询、数据互操作、数据交换、数据分析等四类通用接口模板建设。

　3、通过标准化的服务接口，以数据服务的方式供上层应用使用平台数据资源。

　4、服务接口注册信息应遵循《GA/T 739.1 请求服务平台技术规范》

　5、大数据平台需提供基于主流技术架构、通用标准接口的大数据服务总线，基于整合的各类数据资源，以标准化、模板化的应用服务接口对外提供数据服务，满足实战应用和订制化开发的需要，从而改变以往简单的开放数据库权限或通过定制接口向外部提供数据的方式。同时，借助接口标准化、服务模板化的服务总线，实现与其它重要信息系统的对接，通过标准接口实现跨平台的信息订阅、分布式查询、分布式数据比对等服务应用。

　此外，需要通过大数据服务总线技术，解决数据访问的安全控制问题，满足管理人员审核对外服务接口访问权限、掌握对外数据服务使用情况并进行灵活权限控制的需要。

　3.4.2 大数据分析算法库建设要求

　建设独立的大数据分析算法库，用于支撑网络监控大数据分析业务。包括常规的大数据分析算法。

　 HiGraph算法库

　HiGraph定位为下一代基于并行计算框架的算法库，主要提供基于图计算的图挖掘算法(如社团发现、最短路径、标签传播、公共邻居等)和机器学习算法(如分类算法、聚类算法、关联规则、内容推荐等)。

　? 基于Spark生态圈的内存计算框架

　? 提供一系列经典数据挖掘算法库和新型图挖掘算法库

　? 抽象封装高性能矩阵运算库

　图4.0 Higraph并行计算框架

　所谓Spark生态圈，是指Spark社区提供的用于图计算的Graphx、用于机器学习的MLlib、用于流处理的Streaming、用于SQL处理的SparkSQL，如图3.1所示。

　图4.1 Spark生态圈

　而作为新一代的并行计算框架Spark，在性能上也远远超于Hadoop，如图3.2可以看出，Spark的计算性能要比Hadoop的高15倍以上。

　图4.2 Spark与Hadoop性能对比

　以下Spark和Hadoop从更多方面进行的比较，可以看出，Spark并行计算框架，将会是下一代更流行更通用的框架。

　 Higraph主要特性

　? 面向大规模数据处理:

　? Giga-, Tera-, Peta-byte

　? 使用HIMM(Hybrid Iterative Matrix Multiplication)表示图运算：

　? 数据采用Matrix表示

　? 图运算融合并拓展了标准的矩阵运算，并支持自定义运算

　? 抽象了基本的图算法算子

　? 数据模型支持多种计算框架：

　? Spark

　? MapReduce

　? 综合高生产率和高性能优势：

　? 基于本框架可以快速实现各种图算法，比如PageRank代码少于20行

　? 提供一系列常用的图算法库，eg， PageRank、SSSP、BFS/DFS、K-Core、etc..

　? 提供一系列常用的机器学习算法库，eg，K-means、LR、SVM、决策树、随机森林etc..

　 Higraph主要算法

　图4.3 Higraph算法库

　? 分类算法:

　? 逻辑回归(liner regression)、支持向量机SVM(Support Vector Machine)、

　? 贝叶斯分类Bayes、决策树Tree、随机森林RandomForest

　? 聚类算法：

　? 基于指定类别的：Kmeans

　? 基于密度的：Dbscan

　? 关联规则：

　? 频繁模式树（Frequent Pattern Tree）

　? 频繁项集Apriori

　? 图挖掘

　? 网页排名PageRank

　? 最短路径SSSP

　? 社团发现

　? 人物关系分析

　? 轨迹挖掘

　? 道路匹配

　? 标签传播

　? 公共邻居

　? 协同过滤：

　? 基于项目的协同过滤：Item-based

　? 基于用户的协同过滤：User-based

　 Higraph性能

　实验结果表明Higraph相对开源解决方案有非常显著的性能提升和精度提升。其中HiGraph是Bagel的27倍，是Giraph的4.77倍；相对Hadoop社区的Mahout有15倍以上的性能提升，相对Spark自带的MLlib有3倍左右的性能提升。

　1. 图算法性能对比

　数据集信息： 4,847,571 个顶点, 68,993,773 条边。

　图4.4 Higraph的图算法性能对比

　2. 与MLlib性能对比

　MLlib是Spark开源社区的机器学习算法库，目前社区活跃，使用率高。

　数据集信息: 1,000,000 条记录, 20 维特征。

　图4.5 Higraph VS MLlib

　可以看出，Higraph的算法(LR,SVM)性能要比MLlib的性能高3倍以上，

　3. 与Mahout性能对比

　 Mahout是基于Hadoop的Mapreduce并行框架的开源机器学习算法库，由于基于Hadoop，所以算法运行过程中，每次迭代计算的结果和中间文件的存储都需要写文件，这也是性能比较低的主要原因。

　数据集信息: 1,000,000 条记录, 20 维特征

　图4.6 Higraph VS Mahout

　可以看出，Higraph的LR性能大体是mahout的15倍，精度也比mahout高20%左右。

　 Higraph主要成果

　1. 人物关系分析

　基于积累数据，构建人物关系图谱；亿级记录，分钟级计算，毫秒级结果查询，及时有效。

　图4.7 人物关系分析

　2. 罪犯团伙挖掘

　基于提供的用户通话数据，挖掘可能的犯罪团伙社团；亿级记录，1小时计算完成。

　解决客户采用10个以上计算节点运行10几个小时，计算不出准确结果的问题。

　图4.8 罪犯团伙挖掘

　3. 道路发现

　基于LBS数据，建立道路发现模型， 3分钟计算完1亿条数据样本，使警用地图更新周期从月缩短至天，甚至小时、分钟，省去道路勘探。

　图4.9 道路发现

　3.4.3 分布式存储建设要求

　采用标准的Hadoop HDFS构建分布式存储系统，Hadoop分布式文件系统HDFS（Hadoop Distributed File System）能提供高吞吐量的数据访问，适合大规模数据集方面的应用。通过聚合数十上百台，甚至数千台服务器本地文件系统的吞吐能力，HDFS提供同时对超大数据文件的访问能力。

　3.4.4 分布式并行处理建设要求

　平台应基于标准的MapReduce计算模型构建分布式并行处理模块。MapReduce是一种简化并行计算的编程模型，名字源于该模型中的两项核心操作：Map和Reduce。Map将一个任务分解成为多个任务，Reduce将分解后多任务处理的结果汇总起来，得出最终的分析结果。MapReduce适合于半结构化数据或非结构化数据的挖掘和分析。

　3.4.5 实时内存分析处理建设要求

　平台应基于标准的Spark计算模型构建实时内存分析处理模块。Spark 是一种内存迭代计算环境，其启用的是内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

　Spark是Map/Reduce计算模式的一个全新实现。Spark的创新之一是提出RDD(Resilient Distributed Dataset)的概念，所有的统计分析任务是由对RDD的若干基本操作组成。RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据，因此速度可以得到很大提升。Spark的创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图，根据数据之间的依赖性把相邻的任务合并，从而减少了大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。从这个意义上来说，如果任务够复杂，迭代次数够多，Spark比Map/Reduce快100倍或1000倍都很容易。

　3.4.6 实时分析结果查询建设要求

　实时分析结果查询模块应基于业界领先的分布式并行数据库构建，实现对结构化分析结果的快速查询和可视化展现。

　提供基于MPP架构的结构化数据管理能力，支持行列混存，支持表按行或列格式组织存储，支持行列转换。支持通过SQL接口查询访问HDFS上格式化数据。

　3.5 ETL工具建设需求

　ETL工具主要用于流量数据的清洗、装换，并装载至大数据存储组件中。

　1. 提供大数据平台的ETL功能，将流量数据缓存库中的数据进行清洗、转换，装载到大数据平台，形成流量监控基础资源库。然后进行整合分析，形成不同的专题库，服务于上层业务分析需要。

　2. ETL工具能够提供基本的流程管理能力，能够对数据的清洗、转换和装载过程进行配置和管理。

　3. ETL工具需提供基本日志功能，能够对数据的清洗、转换和装载流程进行日志记录，便于系统管理。

　3.6 实时流量数据收集建设需求

　网络流量数据收集主要用于将采集器实时采集的数据收集成流量数据文件，之后写入FTP服务器，形成流量数据缓存库。数据应能够进行有效清洗，确保平台能够实时处理三个月以上数据，并能够有效存储2至3年数据。根据平台需求对处理和存储的数据量进行扩容。

　3.7 基础设施建设需求

　基础设施层主要提供基本计算资源、存储资源和网络资源，考虑平台的开放性和兼容性，将支持两种方式构建基础设施，一种利用云平台构建，兼容主流的云架构，包括华为云、阿里云、百度云等；一种采用独立硬件构建，采用服务器、存储设计和网络设备构建。

　考虑项目的建设内容和业务需求，在本项目设计需基于用户需求的云平台部署。

　3.8 数据交换组件需求

　数据交换组件主要用于满足平台对同部级其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。主要包括：数据导入、数据导出两个功能模块。

　3.9 安全管理需求

　主要用于构筑整体网络监控大数据平台的安全防护，主要功能包括：用户管理、访问控制、日志管理、HA管理、数据加密、容灾备份等。具体要求如下：

　1. 应提供集中的用户和用户组管理系统，实现统一的安全解决方案。

　2. 应提供系统组件的权限集中管理功能，采用RBAC（Role-Based Access Control）方式进行权限管理，集中呈现和管理系统中各组件零散的权限功能。

　3. 大数据平台在用户账号管理方面，支持账户口令复杂度策略管理，包括密码长度、有效期、重复使用规则等，以提升账户自身安全性。

　4. 在用户通过WEB方式访问大数据平台时，大数据平台的WEB服务平台应能够自动将客户的请求转向到HTTPS连接，以增强Web服务平台访问安全性。

　5. 大数据平台的WEB服务平台，应该支持防跨站点脚本攻击、防SQL注入式攻击、防跨站请求伪造、隐藏敏感信息、限制上传和下载文件、防止URL越权等安全措施，以增强平台的安全性。

　6. 大数据平台应支持日志审计功能，包括Hive、HBase、HDFS、MapReduce、Zookeeper等组件的日志审计。日志审计中即包括对Hadoop平台组件查询类操作的审计，也包括对Hadoop平台组件非查询类操作的日志审计。

　7. 大数据平台在安装时，需要支持对大数据平台软件安装包的MD5校验，以防止软件安装包被篡改。

　8. 大数据平台能够支持按照用户需要对HBase和Hive中的数据进行列加密。即可以按照用户需要，对所有数据进行加密，也可以只对部分关键数据进行加密。

　9. 大数据平台在对HBase和Hive进行数据加密时，能够支持AES128和SM4国密算法，也能够支持用户自定义的加密算法。

　10. 平台的所有业务组件的管理节点均实现双机HA，业务无单点故障。

　11. 平台应支持在系统整体掉电恢复后，能够正常恢复业务，并确保关键数据不丢失。

　12. 大数据平台支持将集群业务平面、管理平面和维护平面，彼此之间实施物理隔离，保证业务网络、管理网络的独立运作。

　13. 大数据平台底层的L

推荐访问:云和县公安网大数讲义据分析