公安网网络流量大数据分析知识讲义

　公安网网络流量大数据分析

　和管控项目需求书

　1 项目概述 4

　1.1 项目背景 4

　1.2 解决思路 4

　1.3 项目目标 5

　1.4 建设原则 7

　1.4.1 参考标准 7

　1.4.2 可靠性及可用性 7

　1.4.3 安全性 8

　1.4.4 成熟性 8

　1.4.5 先进性 8

　1.4.6 可扩展性 8

　2 架构描述 8

　2.1 整体架构 8

　2.2 功能架构 9

　2.2.1 应用层 11

　2.2.2 接口层 11

　2.2.3 分析服务层 11

　2.2.4 数据资源层 11

　2.2.5 基础设施层 12

　2.2.6 数据可视化 12

　2.2.7 数据交换 12

　2.2.8 流量采集 13

　2.2.9 运维管理 13

　2.2.10 安全管理 13

　3 平台建设需求 13

　3.1 业务门户功能需求 14

　3.1.1 业务功能需求 14

　3.1.2 门户管理功能需求 14

　3.2 业务功能需求 16

　3.2.1 应用识别 16

　3.2.2 流量展示及异常流量识别 17

　3.2.3 流量智能调度 19

　3.2.4 用户画像 21

　3.2.5 应用关联关系 27

　3.2.6 应用画像 29

　3.2.7 精准推送 33

　3.2.8 行为识别 35

　3.3 数据可视化需求 37

　3.4 大数据处理分析组件建设需求 38

　3.4.1 数据服务模块建设要求 39

　3.4.2 大数据分析算法库建设要求 39

　3.4.3 分布式存储建设要求 46

　3.4.4 分布式并行处理建设要求 46

　3.4.5 实时内存分析处理建设要求 46

　3.4.6 实时分析结果查询建设要求 46

　3.5 ETL工具建设需求 46

　3.6 实时流量数据收集建设需求 47

　3.7 基础设施建设需求 47

　3.8 数据交换组件需求 47

　3.9 安全管理需求 47

　3.10 运维管理需求 49

　4 数据采集建设需求 49

　4.1 采集器部署要求★ 49

　4.2 采集器数据采集方案 50

　4.3 流量控制调度能力要求 50

　4.4 采集器性能及可靠性 51

　1 项目概述

　1.1 项目背景

　目前内网运行管理中面临以下三方面挑战：

　1. 流量分布不均

　流量分布不均体现在，忙闲时流量差距较大、区域性流量差距较大和流入流出差距较大。造成此类问题的主要原因不是链路资源不足，而是数据资源分布不均。因此，现有扩容链路是解决拥塞问题的办法之一，优点是效果明显，升级链路后拥塞能够得到有效缓解，但是无法从根源去解决此类问题。

　2. 应用服务质量保障不到位

　随着应用的不断发展，部分业务系统的服务范围和可靠性要求提出了新的要求。一方面，随着应用的广泛使用，内网上系统的数量、种类和系统数据量在大幅增加。在此背景下，内网按照原有的网络设计承载能力和数据转发机制上，无法发挥现有网络传输能力和利用带宽资源，易发生网络拥塞和服务质量下降等情况。另一方面，业务系统的服务质量和服务要求已经不满足于畅通率的指标，而对网络传输质量、带宽保障和延迟等提出了新的要求。现有运维手段无法满足此类保障要求。

　3. 网络管控手段有限，时效性不强

　随着应用的快速发展，网络服务内容也在发生更本性变化。从最初的提供数据传输管道，到提供更好的网络传输质量保障。目前主干网在网络流量管控、调度方面，存在不足，传统的QOS需要网络全程部署，精准度低、调整范围广、工作量大，无法满足现阶段内网运营管理需求。尤其是针对突发流量导致的网络拥塞、网络设备或者链路故障导致传输能力下降、临时提出的固定时间、固定区域的网络保障要求等问题时，没有高效的流量调度和管控手段。即使发现问题，无法第一时间精准管控和调度。

　1.2 解决思路

　针对内网运行管理中面临的，应从三个方面进行解决，具体内容如下：

　? 首先，应该做到能够准确了解内网中的流量，分析内网的各个链路的流量中，都有哪些数据和应用、每个应用的流量大小、服务时段、服务的质量如何、这个应用在为哪些系统和用户在服务，以及详细的流量信息，便于开展流量的调度和应用服务保障策略的制定。

　? 其次应该能够准确预测流量，这个预测不是简单的通过现有的今年流量数据和曲线去测算明年的流量，而是通过对应用分类，针对各个应用的流量、服务时段和服务质量，去测算每个应用的流量趋势，再通过汇总，可以精准的评估出内网每条链路每个时段的流量大小和趋势。一方面可以更为精准的预测流量，为链路扩容和网络流量调度提供更为精准的数据支持，另一方面，也可以为重点应用服务保障策略提供准确的数据支持。

　? 再次应该能够准确管控流量。管控不是关停相关服务，也不是按照传统网络策略采取的丢包式的牺牲策略。而是通过对不同应用的网络需求，制定不同的调度和管理方案。例如，对网络延迟较敏感的实时类应用，提供较高的带宽保证传输质量，对于网络速度不敏感的应用，按照时段或者按照带宽利用率动态限制占用的带宽大小，保证应用正常使用的前提下，合理利用内网带宽资源，对于备份类和非工作时段的数据传输，调度到非忙时传输，对于本地数据资源丰富的，推送相关本地资源信息，避免异地查询或者下载，占用广域网资源等

　? 最后做好重点应用的服务和保障工作。一方面是通过精准的流量预测和智能的调度和管控确保提供足够的可靠的网络资源，另一方面，按照应用的关联关系，对应用服务所需的整个应用和资源组提供所需的关联服务和保障。通过定制的行为识别还可以为应用提供更广泛的服务和保障。

　1.3 项目目标

　本项目目标包括两个方面：业务目标和建设目标，其中业务目标包括三个方面：智能化流量趋势分析、全网流量智能调度和重点应用智能化保障：

　项目业务目标

　精准的流量趋势分析：

　1) 能够对指定链路、指定某个应用或某类应用，通过数据挖掘算法，智能化进行指定周期（例如五年后）的指定时段（例如全天时段、或者白天时段）的流量趋势预测；

　2) 能通过系统可视化能力，用户可通过界面选择操作(例如界面上选择指定周期、指定时段)，进行分析结果的图形化展示。整个业务场景需要使用的业务模型：应用画像、流量预测。整个业务场景的实现中，使用的分析方法有：

　? 简单统计类：链路指定时段的流量、指定应用的指定时段的流量，用户访问量，跨域访问量等

　? 数据挖掘类：链路的流向趋势，链路的应用分布应用的用户地域分布；

　? 智能分析类：应用画像之分类流量预测。

　全网流量智能调度

　1) 全网流量规划：通过应用画像及流量的可视化能力，可以从整体分析全网络流量的现状，通过查看链路的流量流向信息，链路上具体的应用分类情况，可以指定整个网络整体的流量规划。通过实时分析数据和预测数据进行流量控制规则生成，分析方法中统计类的包括链路流量趋势，链路的流向趋势，链路的应用分，智能分析类的包括全网流量趋势预测，应用分类。

　2) 根据规划生成流量策略，检测如果链路流量不符合流量规划，则采用精准推送方式提醒流量使用者。流量规划策略可包括流量的分时段使用带宽要求，应用的分地域使用带宽要求，链路带宽阈值要求。

　3) 紧急情况流量管控，当网络中发生拥塞，或预测网络中发生拥塞，则通知用户或直接对采集器下发流量控制策略，可以对低价值应用进行控制或疏导（CAR，打标签通过策略路由转发），同时对高价值应用进行业务策略保证（配置Qos策略）

　4) 整个业务需要使用的业务模型：流量趋势分析、应用画像、精准推送、流量智能管控。

　重点应用智能化保障

　1) 通过对应用系统的分析，对整个应用系统使用的带宽情况，支撑此应用系统的带宽使用情况进行分析，对采集器下发QoE策略，对应用系统对外提供服务的带宽和支撑应用系统使用的带宽进行保障。

　2) 整个分析采用统计方法的是应用的带宽使用情况，支撑系统的带宽情况。采用挖掘和智能分析方法的是应用关系，流量趋势预测。

　3) 整个业务需要使用的业务模型：流量趋势分析、应用画像、流量智能管控。

　项目建设目标

　? 构建网络大数据分析平台，基于领先的大数据处理技术，实现对海量网络流量数据的存储、统计分析和深度学习；实现针对网络流量数据的数据挖掘和深度分析模型和算法库；

　? 建立模型库：通过大数据分析的方法，设计符合内网趋势和研究方向的网络流量数据分析模型，并通过通过大数据分析算法库，将业务模型固化实现，支撑网络运维工作发展。

　? 构建基于全网的易于部署的高性能数据采集器，采集器需要支持海量的数据提取及预处理能力，支持完善的包检测及丰富的自定义能力，满足大数据平台的数据采集要求。

　? 通过系统建设提供丰富的功能，系统提供大数据分析，用户画像，应用画像，关联关系分析等功能，提供内网检测，信息推送，流量管理等主动控制功能。通过关键项进行综合评分，提供全面的信息化程度展现。

　相关工作需要对全量的网络数据和应用信息进行相应的梳理、归类，采用大数据的技术和理念进行深度分析，可以获得新的有价值的信息，发现其中的规律和趋势，挖掘数据中内在的价值，将网络运维工作带入一个新的领域。一方面在运维思路上，将从关注“网络通断”的传统运维管理提升到关注“网络流量内容”的智能化、精细化的网络管理；另一方面将从原有的故障事后处理的被动响应转化为故障事前预测，通过趋势分析结合智能管控手段，有效的避免异常的出现，实现网络运维的主动性预防。

　1.4 建设原则

　网络大数据分析平台应利用当前主流的大数据技术构建，严格遵循国家相关标准，在技术上领先，系统具备高可靠性、高安全性和高可用性，软件架构成熟，应用技术和模式具有先进性，平台具备动态扩展能力。

　1.4.1 参考标准

　网络大数据分析平台必须遵循相关国家和行业标准规范，包括但不限于如下的列表。

　? 《国家信息化“九五”规划和2010年远景目标（纲要）》

　? 《国家信息化领导小组关于我国电子政务建设指导意见》（中办发[2002]17号）

　? 《电子政务工程技术指南》（国信办[2003]2号）

　? 《电子政务标准指南》，国信办和国家标准委员会，2002年5月

　? 《电子政务标准化指南?总则》（国标委高新[2002]42号）

　? 《信息系统安全等级保护定级指南》GB-T 22240-2008

　? 《信息系统安全保护等级基本要求》GB-T 22239-2008

　? 《信息系统安全等级保护实施指南》GB-T 25058-2010

　? 《信息系统等级保护安全设计技术要求》GB-T 25070-2010

　? 《计算机信息系统安全保护划分准则》GB17859-1999

　? 《信息系统安全等级保护测评准则》送审稿

　? 《涉及国家秘密的计算机信息系统安全保密方案设计指南》，国家保密局，2001年4月

　? 《涉及国家秘密的计算机信息系统安全保密技术要求》，国家保密局，2000年7月

　? 《计算机软件工程规范国家标准汇编》 GB8567-88

　? 《计算机软件产品开发文件编制指南》 GB/T 8567-1988

　? 《计算机软件需求说明编制指南》 GB/T 9385-1988

　? 《计算机件分类与代码》 GB/T 13702-1992

　? 《软件工程术语》 GB/T 11457-1995

　1.4.2 可靠性及可用性

　网络大数据分析平台的可靠性包括整体可靠性、数据可靠性和单一设备可靠性三个层次。通过大数据平台的分布式计算、分布式存储架构，从整体系统上提高可靠性，降低系统对单设备可靠性的要求。

　可用性是通过冗余、高可用集群、应用与底层设备松耦合等特性来体现。在网络大数据分析平台规划设计、设备选型/配置中大量采用了硬件设备冗余、网络链路冗余、应用容错等手段，充分保证了整体系统的可用性。

　1.4.3 安全性

　遵循行业安全规范，设计安全防护保证大数据分析平台安全。重点保障网络安全、主机安全、虚拟化安全、数据保护。

　1.4.4 成熟性

　从架构设计、软硬件选型和IT管理三个方面设计网络大数据分析平台解决方案，采用经过大规模商用实践检验的架构方案和软硬件产品选型，采用符合ITIL规范的IT管理方案，保障方案的成熟性。

　1.4.5 先进性

　合理利用大数据的技术先进性和理念先进性，资源动态部署等先进技术与模式，并与网络大数据分析业务相结合，确保先进技术与模式应用的有效与适用。

　1.4.6 可扩展性

　支撑网络大数据分析平台的资源需要根据业务应用工作负荷需求进行弹性伸缩，IT基础架构应与业务系统松耦合，这样在业务系统进行容量扩展时，只需增加相应数量的IT硬件设备，即可实现系统的灵活扩展。

　2 架构描述

　2.1 整体架构

　本项目整体架构图如下图所示，首先由网络流量采集器采集实时流量数据，通过实时流量数据收集模块，将实时采集的流量数据存储本地之后，通过大数据平台的ETL工具，完成数据的清洗、装换，之后装载至大数据处理平台，进行处理分析。基于大数据的处理技术，构建符合智能网络管理需求的大数据分析业务模型，包括用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别等，对网络流量数据进行大数据分析，借助专业的可视化组件，完成数据分析结果的展现。

　图1：系统整体架构设计图

　通过专业的数据交换组件，实现网络大数据分析平台同其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。

　运维管理和平台安全对于网络大数据分析平台至关重要，通过专业的安全管理模块和运维管理模块，实现平台软硬件一体化运维管理和全方位、端到端、立体的安全管理体系。

　大数据处理和分析组件是平台建设的核心，该项目采用业界成熟的、标准的、经过大量案例验证成功的技术路线。Hadoop作为业界大数据的事实标准，平台将基于Hadoop生态系统实现大数据分析处理，同时采用并行数据库技术，实现分析结果的快速检索和可视化展现，满足网络监控的可视化分析需求。

　2.2 功能架构

　网络监控大数据分析平台的功能架构如下图所示，基于系统整体架构的设计，网络监控大数据分析平台功能主要包括五层：基础设施层、数据资源层、分析服务层、接口层和应用层，以及五个支持功能组件构成：安全管理、运维管理、数据可视化、数据交换和流量采集。平台基于主流大数据技术构建，符合主流云架构开发要求，满足部信息中心云架构开发要求。各部分主要功能简述如下：

　图2：系统功能架构设计图

　基础设施层主要提供基本计算资源、存储资源和网络资源，考虑平台的开放性和兼容性，支持云平台构建，兼容符合业界主流的开放式云架构。

　数据资源层是大数据平台的核心，主要提供大数据分析处理的存储和计算组件。首先通过实时流量收集模块，将采集器实时采集的数据收集成流量数据文件，之后写入FTP服务器，形成流量数据缓存库；之后通过专业的ETL工具，将采集的流量数据进行清洗、转换，转载进大数据平台，形成流量监控基础资源库，以供上层业务分析使用。之后根据大数据分析业务的需求，将基础资源库中的数据进行集成处理，形成专业的主题库，包括流量专题库、用户专题库和应用专题库；依据上层统计和数据挖掘、机器学习的需要，提供专业的数据服务，包括MapReduce JAVA API，SQL，HBase API，HQL等；同时提供针对专题库的数据管理功能，能够对数据质量进行管理，包括元数据管理、数据质量管理、数据提取规则等。

　分析服务层主要用于实现网络监控大数据分析业务，包括业务模型和算法管理。业务模型主要包括：用户画像、应用画像、关系分析、流量预测、精准推送和定制行为识别。算法管理主要提供基本的大数据分析算法，包括：趋势预测、特征分析、关联规则、分类分析、聚类分析、个性化推荐等。

　接口层主要用于提供数据访问的接口，用于分析结果的可视化展现，包括ESB数据服务总线、Web服务接口和SQL接口等，支撑上层业务门户的可视化展现。

　应用层主要用于提供上层业务门户对分析结果的可视化展现，包括：应用的精准推送、网络流量预测分析、行为识别、应用关系分析。同时要提供门户基本的管理功能。

　运维管理模块主要用于平台整体的运维管理，包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。

　安全管理主要用于构筑整体网络监控大数据平台的安全防护，主要功能包括：用户管理、访问控制、日志管理、HA管理、数据加密、容灾备份等。

　数据可视化组件用于分析结果的展现，平台提供两种数据展示方式：报表展现、图形化展示。

　数据交换组件主要用于满足平台对同其他业务系统和省厅平台的数据交换，实现数据的共享和有效利用。主要包括：数据导入、数据导出两个功能模块。

　数据采集主要用于网络流量数据的采集和协议解析。主要功能模块包括：网络流量采集、协议解析、流量数据实时发送。

　2.2.1 应用层

　应用层为用户提供统一的门户和应用集成服务，实现网络大数据分析的各项业务功能，其主要功能包括两方面：业务功能和门户管理功能。

　业务功能：提供上层业务门户对分析结果的可视化展现，包括：应用的精准推送、网络流量预测分析、行为识别、应用关系分析，应用画像、定制行为识别等。

　门户管理功能：如统一的待办任务工作台、统一的消息提醒、统一的预警信息等等。基于该产品集成各类应用系统，可实现权限管理、账号管理、单点登录、在线帮助、应用日志和审计、门户个性化等，基于标准规范之上，持续改善用户体验。

　2.2.2 接口层

　接口层主要用于提供数据访问的接口，用于分析结果的可视化展现，包括ESB数据服务总线、Web服务接口和SQL接口等，支撑上层业务门户的可视化展现。

　业务门户在访问数据分析结果时，可以通过接口层提供的访问接口，直接访问数据分析结果。

　2.2.3 分析服务层

　2.2.4 数据资源层

　数据资源层是大数据平台的核心，主要提供大数据分析处理的存储和计算组件。首先通过实时流量收集模块，将采集器实时采集的数据收集成流量数据文件，之后写入FTP服务器，形成流量数据缓存库；之后通过专业的ETL工具，将采集的流量数据进行清洗、转换，转载进大数据平台，形成流量监控基础资源库，以供上层业务分析使用。之后根据大数据分析业务的需求，将基础资源库中的数据进行集成处理，形成专业的主题库，包括流量专题库、用户专题库和应用专题库；依据上层统计和数据挖掘、机器学习的需要，提供专业的数据服务，包括MapReduce JAVA API，Spark，SQL，HBase API，HQL等；同时提供针对专题库的数据管理功能，能够对数据质量进行管理，包括元数据管理、数据质量管理、数据提取规则等。

　数据资源层由以下部分组成：

　? 实时流量数据收集：收集采集器实时采集的流量数据，写入FTP服务器，形成流量数据缓存库。

　? 流量数据缓存库：存储采集组件实时采集的网络流量数据，供ETL工具使用。

　? 数据ETL处理：用于流量数据的清洗、转换和装载。主要用于流量数据的预处理和加载。

　? 流量监控基础资源库：主要用于存储基本的流量数据，是流量数据的全集。

　? 专题库：根据大数据分析业务的需求，将基础资源库中的数据进行集成处理，形成专业的主题库，包括流量专题库、用户专题库和应用专题库。

　? 数据服务：基于大数据分析模型和算法的需求，提供基本的数据服务，包括MapReduce JAVA API，Spark，SQL，HBase API，HQL等数据访问服务。

　? 数据管理：根据大数据应用要求对汇聚的数据资源进行组织、管理和高效率运算，

　? 基于大数据架构的数据资源组织与计算：根据大数据应用要求对汇聚的数据资源进行组织、管理，包括元数据管理、数据质量管理、数据提取规则等。

　2.2.5 基础设施层

　基础设施层主要提供基本计算资源、存储资源和网络资源，考虑平台的开放性和兼容性，将支持两种方式构建基础设施，采用主流的云架构，包括华为云、阿里云、百度云等；一种采用独立硬件提供，包括计算存储服务器、独立的网络设备等。

　2.2.6 数据可视化

　数据可视化组件用于分析结果的展现，平台提供两种数据展示方式：报表展现、图形化展示。

　2.2.7 数据交换

　2.2.8 流量采集

　数据采集层对整个平台提供数据支撑，通过多种方式获取丰富的数据。采集层可以通过专用网络数据采集器采集网络数据，通过网管系统获得网络管理数据，可以通过网络设备获取网络设备日志。采集器部署在部，省，市三级的数据中心及网络出口，可以获取用户及应用的网络数据。专用的高性能采集器采用深度报检测（DPI）技术，对网络数据进行实时分析，抽取。通过专用采集器的实时分析处理，将网络数据进行千分之一的信息整理，根据业务需要将数据按照指定格式上送到数据仓库。

　2.2.9 运维管理

　运维管理模块主要用于平台整体的运维管理，包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。

　2.2.10 安全管理

　安全管理主要用于构筑整体网络监控大数据平台的安全防护，主要功能包括：用户管理、访问控制、日志管理、HA管理、数据加密、容灾备份等。

　3 平台建设需求

　该项目用于构建网络大数据分析平台，通过专业的网络流量数据包采集工具，获取网络运行数据，基于大数据分析技术，进行专业的数据统计和算法分析，进行可视化展示，支撑业务的发展。总体架构如下图所示：

　图3：系统总体架构设计图

　总体上项目建设需求可分为业务门户需求、业务功能需求，大数据处理分析需求，ETL处理分析需求，基础设施需求，数据采集需求，实时流量数据收集需求，数据交换模块需求，数据可视化需求，安全管理需求，运维管理需求等。具体描述如下：

　3.1 业务门户功能需求

　3.1.1 业务功能需求

　业务门户主要用于对分析结果的可视化展现，包括：应用的精准推送、网络流量预测分析、行为识别、应用关系分析。同时要提供门户基本的管理功能。

　3.1.2 门户管理功能需求

　门户管理功能：如统一的待办任务工作台、统一的消息提醒、统一的预警信息等等。基于该产品集成各类应用系统，可实现权限管理、账号管理、单点登录、在线帮助、应用日志和审计、门户个性化等，基于标准规范之上，持续改善用户体验权限管理。其中安全管理要求将通过统一的安全管理模块建设。

　权限管理

　权限管理是信息系统信息安全基础设施的重要组成部分，是信息系统授权管理体系的核心。权限管理功能主要包括：

　1. 组织机构管理：当前组的修改和查询,对下级组的增加、删除、修改、查询以及对组中用户、角色、资源的维护；

　2. 用户管理：实现用户的增加、删除、修改、查询、权限查询、用户授权以及更换用户所在组等功能；

　3. 角色管理：实现角色的增加、删除、修改、查询以及权限的分配、角色许可的维护；

　4. 资源管理：完成资源的增加、删除、修改、查询以及下级资源的增加、删除、修改、查询,资源的许可维护；

　5. 菜单管理：实现选中菜单的修改，以及其下级菜单的增加、修改、删除功能；

　统一账号管理

　对目前各系统账号进行的统一管理，一旦建立账户管理系统之后，以后新建系统将会直接使用此账户管理系统，并通过此系统完成用户身份认证和用户信息查询等功能。统一认证支持证书、密码等方式，原系统密码变更不会影响单点登录。

　单点登录

　支持J2EE和asp.Net两种平台下应用系统的单点登录，支持B/S、C/S 架构的系统集成。当用户一次登录门户后，便可以很方便的登录到其他系统，而无须重复输入用户名和密码，从而真正实现了组织内无障碍漫游。

　应用日志与审计

　1. 提供审计功能，以日志的形式记录用户操作。通过设置资源的“是否审计”参数可以记录用户对这些敏感资源（用户增加、删除、授权等等）的访问情况，如访问时间、类型、用户、用户组、用户IP地址等;

　2. 提供过期日志备份机制。系统提供按时间、部门、用户、IP地址、行为等条件对各类日志的查阅功能。通过查看用户的访问日志，对登录平台后的用户操作进行监督、管理，以便出现问题及时解决，保证系统的正常运行;

　3. 通过授权访问控制功能，只对有权限访问审计信息的角色分配审计相关资源，记录用户对审计信息的操作日志，防止审计信息被人为修改、伪造和删除，保证审计信息的准确性;

　个性化门户

　提供统一的访问界面、访问形式，实现多个系统之间信息集成，支持每个用户根据自己的喜好定制门户

　在线帮助

　系统提供每个菜单（功能模块）的在线帮助功能，便于指导用户操作

　通知公告

　系统提供在线发布公告、任务提醒功能，在系统首页中统一展示公告、任务提醒、提示性消息等

　3.2 业务功能需求

　3.2.1 应用识别

　应用识别介绍

　链路中的每个流量包，均来源于各类应用，或为用户请求应用服务的请求信息，或为应用响应用户情况的反馈信息，如何识别各个流量包背后的应用以及分类，哪些流量包是来源于同一个应用，它们有哪些共同特征或者个性差异，不同的流量包又是通过什么样的算法或者逻辑归结为同一个应用，这是应用识别范畴需要解决的事情。

　只有通过应用识别，各个流量包才能找到业务载体，也才有流量分析的业务价值，才能实现一系列的应用刻画、用户刻画，才能挖掘应用与应用的关系，才能分析重点应用的数据特征并为之保驾护航，才能为流量的智能调度提供的依据。总而言之，应用识别是网络流量大数据分析与管控的业务基础。

　应用识别价值

　对每一个流量包识别了来源于哪个应用的基础上，才能更好的开展一系列基于流量的应用分析，并为重点应用的服务和保障工作提供信息支持。

　应用识别模型构建

　鉴于流量包的数量过于庞大，若要实时监控每条件流量并且进行识别，不但做不到很好的实时效果，也会使得大数据平台的很大部分资源耗费在应用识别动作上，系统可根据大数据平台资源耗费状况，在空闲的时段自动开启识别程序，也可以因特殊情况的需要，由人工启动识别程序。

　应用识别涉及算法

　1）对每个流量包进行应用识别；

　2）可智能启动识别程序，也可根据个性化要求，设置启动时间与周期；

　3）应用识别核心算法，根据流量大小、流量特征、流量发生IP等要素，构建应用鉴别规则。

　4）对每个识别出来的应用进行入库处理，随即要与已报备应用进行比对，筛选出未报备的应用以供人工确认；

　应用识别输出

　1）提供数据列表，展示每个根据流量数据识别出来的应用。

　2）提供人工确认信息录入功能，记录与保存人工确认的信息；

　3）应用报备数据项可根据部门要求，确定报备信息项，如包括：应用IP、应用名称、应用范围、应用部署硬件环境、集群方式、用途、与其他应用的明确关系等等。

　3.2.2 流量展示及异常流量识别

　流量展示介绍

　流量展示功能是需要准确展示内网中的流量，统计出内网的各个链路的流量中，都有哪些数据和应用、每个应用的流量大小、服务时段、这个应用在为哪些系统和用户在服务，以及详细的流量信息。尤其重要的，是对某些时候异常流量的及时识别，继而可以进行相应的链路调整，防止引起更大的网络故障。

　流量展示价值

　流量展示为管理者观察和了解链路流量的情况提供直观的方式，便于开展流量的调度和应用服务保障策略的制定。异常流量对网络运行影响很大，对网络突发流量或异常流量的及时识别及调整，有利于增强网络稳定性，避免网络拥塞。

　流量展示模型构建

　通过一系列的统计算法，结合时间、地域、次数等维度表现应用、链路和用户三个关注对象的流量情况。异常流量识别有单独的监控展示。

　流量展示涉及算法

　1）以应用为主体，以日/周/月为周期，统计上行流量/下行流量/连接次数/连接用户数/连接时常；

　2）以用户为主体，以日/周/月为周期，统计上行流量/下行流量/连接次数/连接应用数/连接时长；

　3）以链路为主体，以日/周/月为周期，统计上行流量/下行流量/承载应用个数/承载用户个数；

　流量展示输出

　1）全国流量分布图，展示公安部与各地间的数量值；

　2）钻取每条链路、表现出该数量值下各个时间点的数据量值；

　3）钻取每条链路、表现出该数量值下各类应用的占比；

　4）钻取每条链路、表现出给数量值下流量排名TOP10的应用名称。

　5）实现前一天与7日均线的比较图表。

　6）异常流量相关信息展示。

　3.2.3 流量智能调度

　流量智能调度介绍

　随着信息化进程的推进，整个网络流量及内容都呈现了爆发式的增长。目前网络中存在了大量的应用，覆盖各个岗位。但部分区域出现了流量拥塞和网络服务质量下降的情况。大量流量导致带宽资源不足，但是这种带宽不足表现为相对忙时带宽不足和非忙时的带宽空闲并存。

　如何解决这类问题，目前的主要手段是链路扩容，但当我们带宽从10M，扩到100M，扩到1G，甚至扩到10G，网络中依然出现忙时拥塞等带宽资源不足的情况。

　通过大数据分析技平台的建设，给我们对这个问题带来了新的解决思路，可以根据网络流量的预测分析结果对网络资源进行有效的规划，针对内网中大量潮汐类应用，我们就可以规划一些数据备份类、系统更新类应用（数据量传输无白天或者夜间的限制），与潮汐类应用错峰使用，安排在晚上空闲时段，提升现有带宽利用率，在不增加带宽的基础上提高各类应用的网络传输质量，避免网络拥塞。还可以通过网络资源趋势分析，可以预测网络的流量增长规模，预测应用增长趋势，指导后续整体网络规划。

　流量智能调度，是指针对网络中由于网络流量不均匀占用，使得应用服务质量下降的问题，能够通过网络拥塞点预测，进行智能调度，提高网络资源使用率，优化应用服务质量。

　流量智能调度，支持：

　1) 离线分析指定链路或指定应用（某一个或某一类）的历史数据，得到链路的拥塞模型，能够通过该模型进行拥塞点的预测，根据预测结果进行通知，或自动下发控制策略。（预测模型可根据实际结果进行模型自身的修正。）

　2) 实时监控指定链路或指定应用的（某一个或某一类）网络情况，当检测到拥塞后，下发网络控制策略。这一功能需要后期项目增加相应的硬件设备后才能提供。

　流量智能调度价值

　1) 通过网络资源趋势预测分析，提升现有带宽利用率，在不增加带宽的基础上提高各类应用的网络传输质量，避免网络拥塞。

　2) 通过网络资源趋势预测分析，可以预测网络的流量增长规模，预测应用增长规模，指导后续整体网络规划。

　流量智能调度模型构建

　1. 流量调度涉及的数据特征有：

　1) 日期

　2) 源IP地址

　3) 目的IP地址

　4) 源端口号

　5) 目的端口号

　6) 协议类型

　7) 时间区间T内的流入流量

　8) 时间区间T内的流出流量

　9) 时间区间T内最大速率

　10) 时间区间T内最小速率

　11) 时间区间T内平均速率

　12) 时间区间T内的总访问人数

　13) 时间区间T内的总访问次数

　14) 每天繁忙时间区间

　15) 时间区间T内的总访问时延

　16) 时间区间T内网关超时的次数

　17) 目的地域标识

　18) 时间区间T内的服务质量QoE

　19) 时间区间T内的输入包个数

　20) 时间区间T内的输出包个数

　21) 时间区间T内的输入字节数

　22) 时间区间T内的输出字节数

　2. 将一天的网络流量数据，按照时间区间T的定义(例如5分钟)，划分为多个时间段，分别计算每个时间区间段内的数据特征，例如计算08:00到08:05内的流入流量、流出流量、最大速率、最小速率、平均速率、总访问人数、总访问次数等。

　3. 将流量调度的数据特征，以“日期，特征1，特征2，…，特征N”的形式表示，其中，每行表示某天内的网络流量数据记录，对于无时间属性的特征，一行只有一个，对于具有时间属性的特征，每个时间区间一个；例如“源端口号”一行只有1个；“平均速率”按照5分钟划分，一天有288个。

　4. 将多天网络流量的数据特征，按照“日期，特征1，特征2，…，特征N”的形式表示为多条文本，并通过数据归一化处理为数值型矩阵。

　5. 离线分析指定链路或指定应用（某一个或某一类）的历史数据，得到链路/应用的拥塞模型，能够通过该模型进行拥塞点的预测，根据预测结果进行通知，或自动下发控制策略。（预测模型可根据实际结果进行模型自身的修正。）

　6. 在线实时监控指定链路或指定应用的（某一个或某一类）网络情况，当检测到拥塞后，下发控制策略。

　流量智能调度涉及算法

　1) 时间序列

　2) SVM

　流量智能调度模型输出

　流量智能调度模型的输出结果为：

　1) 时间区间T1网络参数+时间区间T2网络参数+…+时间区间Tn网络参数

　2) 其中，网络参数为，建模过程中选择的与时间属性相关的数据特征，例如：流入流量、流出流量、最大速率、最小速率、平均速率、总访问人数、总访问次数。

　3) 当需要预测未来某天某个时刻的网络拥塞点时，只需要输入指定时刻所在的时间区间T。

　3.2.4 用户画像

　用户画像，是大数据时代个性化技术的典型代表，相比传统的问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、用户偏好等重要信息，提供了足够的数据基础。用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。

　用户画像介绍

　所谓用户画像，就是通过关键词对用户特征进行描述，例如：

　男，31岁，已婚，网络技术，运维，云搜。

　这样一串描述就是用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。以互联网为例，如图3.8所示：

　随着大数据时代到来，信息呈井喷式增长，如何快速准确的从海量数据中挖掘出每个用户的高维特征标签，如同海里捞针般艰难。大数据具有以下4V特征：

　1) Volume：海量的数据规模(TB ->PB->EB->ZB) ，尤其是非结构化数据的超大规模增长；

　2) Velocity：快速的数据流转和动态的数据体系，数据增长快，实时分析而非事后分析；

　3) Variety：多样的数据类型，文件、电子邮件和视频等非结构化信息约占未来十年数据产生量的90%；

　4) Value：巨大的数据价值，对未来、行为模式等预测分析，传统思维下，单位价值密度低。

　如何以低成本的方式快速的在海量数据中挖掘出有价值的信息是对并行计算的基本需求。而所有的大数据分析，都是要以人为本，“用户”才是王道，网路大数据平台中，通过用户画像模型，能更高效、更显著的体现大数据的价值所在。

　网络大数据分析平台中的用户画像，能够提供以下功能：

　1) 用户偏好挖掘及标签特征表示，例如：用户A，网络，技术牛人，云搜；

　2) 正常用户、非正常用户的划分和特征分析，即对所有用户进行聚类，划分为两类，并对每个类进行特征分析，例如：正常用户类别的特征是：单位时间内访问应用的次数小于阈值A+每天在线时间总长不超过阈值B；相反的就是非正常用户的特征；

　3) 跨域访问应用的用户列表及分析，例如：陕西用户A访问北京应用K；

　4) 基于活跃度的用户划分，例如：

　用户A，活跃度10非常活跃

　用户B，活跃度5普通活跃

　用户C，活跃度0.5不活跃

　用户画像价值

　用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢刑侦技术的用户有多少？喜欢刑侦技术的人群中，男、女比例是多少？也可以做数据挖掘工作：利用关联规则计算，喜欢刑侦技术的人通常喜欢什么类型的影视剧？利用聚类算法分析，喜欢刑侦技术的人年龄段分布情况。

　1) 通过用户画像之偏好挖掘的层面描述，为更精准的推送用户感兴趣的应用提供基础模型，从而增强用户粘性。

　2) 通过用户画像之用户分类的层面描述，能够为应用提供非正常用户列表，为进一步的高危人员分析提供数据支撑。

　3) 通过用户画像之用户地域分析的层面描述，能够为应用提供跨域访问的用户列表，为进一步的跨域原因分析提供数据支撑。

　用户画像模型构建

　数据来源

　构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。大体分为静态数据和动态数据。

　1. 静态数据

　静态信息数据：用户相对稳定的信息，主要包括人口属性(如性别、年龄、籍贯、血型、婚姻状态等)数据，可直接从部资源库获取。

　2. 动态数据

　动态数据：用户不断变化的行为信息，广义上讲，一个用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是用户行为。当行为集中到互联网，用户行为就会聚焦很多，例如浏览部官网首页、在云搜中搜索视频、发表关于某项整改活动的微博等等均可看作互联网用户行为。动态数据可通过数据采集器，从网络中采集解析得到。

　数据特征

　用户画像的数据特征有：

　1) 用户静态数据

　2) 是否访问多类的核心组件

　3) 平均每天访问的应用数

　4) 平均每天访问的次数

　5) 用户活跃程度

　6) 平均每天活跃时段

　7) 平均每天流出流量

　8) 平均每天流入流量

　9) 用户请求中客户端类型个数

　10) 用户客户端浏览器类型个数

　11) 用户归属地标识

　12) 平均每天跨域访问的应用数

　13) 平均每天本地域访问的应用数

　14) 平均每天访问成功响应的次数

　15) 平均每天访问的非成功响应的次数

　16) 用户访问的协议类型个数

　17) 平均每天访问被拒绝次数

　18) 平均每天访问请求超时次数

　19) 平均每天访问返回错误请求的次数

　20) 平均每天访问返回无内容的次数

　21) 平均每天访问返回临时重定向次数

　22) 平均每天访问返回禁止访问的次数

　23) 平均每天访问返回执行失败的次数

　24) 平均每天访问返回网关超时的次数

　25) 平均每天访问返回内部服务器错误的次数

　26) 平均每天访问服务不可用的次数

　27) 每天搜索的关键词列表；

　建模方法

　1. 用户偏好标签

　通过事件模型描述一次行为；一个事件模型包括：时间、地点、人物三个要素。可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

　1) 什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位

　2) 什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒）；时间长度，为了标识用户在某一页面的停留时间。

　3) 什么地点：用户接触点，Touch Point。对于每个用户接触点包含两层信息：应用网址 + 内容。网址：每一个应用url链接（页面/屏幕），即定位了一个应用地址。什么内容：每个url网址（页面/屏幕）中的内容。可以是应用基本信息：应用类别、所属岗位、核心功能描述、关键词描述等等。如，人口库，所有人口、请求服务，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

　4) 什么事：用户行为类型，对于系统，用户行为类型分为：浏览、搜索、评论，收藏。不同的行为类型，对于接触点的内容产生的标签信息，具有不同的权重。如，评论权重计为5，浏览计为1。

　用户画像的数据模型，可以概括为下面的公式：用户标识 + 时间 + 行为类型 + 接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上**标签。用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：标签权重=衰减因子×行为权重×网址子权重。

　2. 用户划分：

　1) 将用户画像的数据特征，以“用户A，特征1，特征2，…，特征N”的形式表示，其中，每行数据表示一个用户，在该行中，“特征K”表示该用户的第K个特征项，例如可以是“平均每天跨域访问的应用数”。

　2) 将多个用户的数据特征，按照“用户A，特征1，特征2，…，特征N”的形式表示为多条文本，并通过数据归一化处理为数值型矩阵。

　用户画像模型构建的整体流程：

　1) 用户行为数据采集并处理

　2) 用户行为数据特征抽取

　a) 用户画像涉及到的数据特征，一部分需要通过开发算子完成，例如“是否访问多类核心组件”，就需要将用户访问的所有应用信息，通过核心信息库的数据映射，进一步计算该用户是否满足这项指标。

　b) 用户画像涉及到的数据特征，一部分需要通过报表统计的结果获取，例如平均每天访问的应用数等。

　c) 用户画像涉及到的数据特征中，用户归属地标识，则需要通过IP地址归属地信息库进行查询；

　3) 构建用户画像训练数据，将多个用户的历史数据，通过特征抽取，数据归一化等处理后，整理为算法的输入数据

　4) 选择算法库算法，进行模型计算

　5) 通过模型调优，得到并保存模型

　用户画像涉及算法

　1) 用户偏好分析

　2) 分类算法

　3) 聚类算法

　4) 特征工程

　用户画像模型输出

　1) 用户画像模型的输出结果为：用户偏好特征库 +用户活跃度类别；

　2) 每行表示一个用户的偏好特征，以“用户标识，偏好1，偏好2，…,偏好N，活跃度类别”表示。

　3.2.5 应用关联关系

　应用关联关系介绍

　分析挖掘应用之间内部相互依赖的社团关系(例如防控系统，依赖人口库、人口库依赖地方户籍库等)，识别出每个“社团”的核心应用组件，以及该应用组件有依赖的其他应用。并且能够形象的通过图展示(例如树状)的方式展示出来。例如，“社团1,核心组件：出入境管理应用，依赖组件：人口资源库、在逃人员库、绿卡系统、外国人管理系统”。

　应用关联关系价值

　通过应用之间的依赖关系挖掘，可以带来以下功效：

　1) 识别部系统的核心应用组件，进行重点运维保障，根据分析结果合并、拆分应用系统，提升应用的用户体验（如果两个系统有较大的关联性，我们就可以作一定的整合，便于用户使用）。

　2) 可将具有关联关系的此类应用主动推送给使用此类某应用较多的用户，可以帮助用户在内网内更快捷的找到自己所需资源，

　3) 提升内网内应用的使用率，达到推广热点系统和先进系统的目的。

　应用关联关系模型构建

　1) 应用关联关系定义：应用内部业务逻辑形成的应用内部之间的依赖关系 + 应用同时被访问而形成的外部关联关系。

　2) 罗列所有应用的访问特性，例如单向依赖，双向依赖，三角依赖、多跳依赖等关系。

　3) 将具有关联关系的应用，以有向边表示，即：“应用A，应用B，关系依赖程度”三个字段表示，其中，每条数据表示一条关系，也就是图中的一条有向边，应用A和应用B表示图中的两个顶点，而“关系依赖程度”表示图中边的权值。

　4) 应用关联关系数据特征表示形式：

　应用A 应用B 关系依赖程度D

　表示：应用A依赖于应用B，依赖程度为D( 0 < D <=1)

　应用关联关系模型构建的整体流程：

　1) 网络数据采集并处理

　2) 应用关联关系数据特征抽取

　a) 应用关联关系数据特征，一方面需要根据应用内部逻辑原理，得到应用内部的相互依赖的关联关系。

　b) 应用关联关系数据特征，另一方面需要根据应用同时被访问的外部关联关系。

　3) 将具有关联关系的应用，以“应用A，应用B，关系依赖程度D”的形式表示有向边集合，作为算法输入数据；

　4) 选择图挖掘算法，进行模型计算

　5) 通过模型调优，得到并保存模型

　图3.8 基于图挖掘的应用关系分析

　应用关联关系涉及算法

　1) 有向图遍历

　2) 社团发现

　3) 关联规则

　应用关联关系模型输出

　1) 应用关联关系模型的输出结果为：社团信息，即：社团编号、社团leader、社团成员；

　2) 每行表示一个社团，以“社团编号、社团leader、社团成员1，社团成员2，…社团成员K”表示。

　3.2.6 应用画像

　应用画像介绍

　所谓应用画像，是指对内网中的所有应用，从多个维度、多个方向、多个层面进行描述、分析、挖掘和展示。例如基于应用类别层面的应用画像、基于应用流量趋势预测层面的应用画像。

　1) 支持以下维度应用流量趋势预测的应用画像描述

　1) 指定地域

　2) 指定链路

　3) 指定类别

　4) 应用流量

　5) 应用访问次数

　6) 应用服务质量

　2) 支持基于应用类别划分的应用画像描述，例如，将应用分为：视频类、数据备份类、请求服务类、数据比对类等。

　应用画像价值

　1) 通过应用分类模型，当有新的应用上线后，可进行分类预测，为用户推送相同类型的应用作为基础数据模型。

　2) 通过应用流量的趋势预测，可作为应用评价指标之一(例如应用活跃度、应用热点)，也可以作为针对每个应用的自身发展趋势的预测。

　3) 通过应用流量预测分析，指导应用系统的建设，保证基础网络更好的支撑上层应用。

　应用画像模型构建

　1. 应用画像涉及的数据特征有：

　1) 是否系统

　2) 是否核心组件

　3) 是否全天候

　4) 平均每天访问人数

　5) 平均每天访问次数

　6) 应用繁忙程度

　7) 平均每天繁忙时段

　8) 平均每天流出流量

　9) 平均每天流入流量

　10) 平均每天并发连接数

　11) 应用支持的客户端类型个数

　12) 应用支持的客户端浏览器类型个数

　13) 平均每天的访问时延

　14) 应用的归属地标识

　15) 平均每天跨域访问的用户数

　16) 平均每天本地域访问的用户数

　17) 平均每天访问的正常用户数

　18) 平均每天访问的非正常用户

　19) 应用支持的协议类型

　20) 平均每天应用访问被拒绝次数

　21) 平均每天应用访问请求超时次数

　22) 平均每天应用访问返回成功的次数

　23) 平均每天应用访问错误请求的次数

　24) 平均每天应用访问无内容的次数

　25) 平均每天应用访问无内容次数

　26) 平均每天应用访问临时重定向次数

　27) 平均每天应用访问禁止访问的次数

　28) 平均每天应用访问返回执行失败的次数

　29) 平均每天应用访问网关超时的次数

　30) 平均每天应用访问内部服务器错误的次数

　31) 平均每天应用访问服务不可用的次数

　32) Mac地址

　33) 每天开关机时间

　34) 源地域标识

　35) 目的地域标识

　36) 该类应用的时间段因子

　37) 该应用的服务质量QoE

　38) 应用类别

　2. 将应用画像的数据特征，以“应用A，特征1，特征2，…，特征N”的形式表示，其中，每行数据表示一个应用，在该行中，“特征K”表示该应用的第K个特征项，例如可以是“平均每天跨域访问的用户数”。

　3. 将多个应用的数据特征，按照“应用A，特征1，特征2，…，特征N”的形式表示为多条文本，并通过数据归一化处理为数值型矩阵；

　应用画像模型构建的流程：

　1) 应用被访问的行为数据采集并处理

　2) 应用行为数据特征抽取

　a) 应用画像涉及到的数据特征，一部分需要通过开发算子完成，例如“是否系统”，需要通过核心信息库的数据映射，进一步计算改应用是否满足这项指标。

　b) 应用画像涉及到的数据特征，一部分需要通过报表统计的结果获取，例如平均每天访问的用户数等。

　c) 应用画像涉及到的数据特征中，应用归属地标识，则需要通过IP地址归属地信息库进行查询；

　3) 构建应用画像训练数据，将多个应用的历史数据，通过特征抽取，数据归一化等处理后，整理为算法的输入数据；如果是分类问题，则需要对应用类别打标签，即形成训练数据集中的类别信息；

　4) 选择算法库算法，进行模型计算

　5) 通过模型调优，得到并保存模型

　6) 如果是分类或聚类算法，可对未知应用，通过模型进行预测。

　应用画像涉及算法

　1) 基于时间序列的流量预测

　2) 分类算法

　3) 聚类算法

　4) 特征工程

　以下以分类算法流程为例：

　图3.9 应用分类流程

　1) 数据准备：根据分类规则(例如视频类、备份类、服务类等)，对现网已有典型应用打标签，完成应用类别信息；

　2) 特征选择：根据内网应用和用户使用应用的业务理解，从采集数据集合中提取和定义分类预测特征字段，形成训练数据集；

　3) 模型训练：选择合适的分类算法，完成对训练数据集的分类训练，并针对模型评估方法，对模型进行调优，最后输出分类模型；

　4) 分类预测：对现网类别未知的所有其他应用，通过分类模型，预测该应用的类别，并将预测结果展示或保存。

　应用画像模型输出

　应用画像模型的输出结果为：

　1) 应用标识，应用类别，时间区间T1流量预测值+时间区间T2流量预测值+…+时间区间Tn流量预测值

　2) 每行表示一个应用，多个应用以多个模型组成。

　3.2.7 精准推送

　精准推送介绍

　所谓精准推送，就是指能将用户感兴趣的应用信息或者系统配置的规则信息或者系统管理人员手动配置信息，能够准确实时的推送给目标用户。

　例如某用户对技术论坛

推荐访问:云和县公安网大数讲义据分析