AdvancedITIL: 服务支持度量标准
服务支持度量标准
事故管理
第 5 章
《ITIL 服务支持》一书中的“事故管理”一节将监视和测定称为关键性能指标 (KPI)。关于 KPI,ITIL 表述如下:
“若要判断流程的性能,应该设定定义明确且具有可测定对象的目标 — 也称为关键性能指标 (KPI)”。
当查看 ITIL 列举的例子时,切记这些例子是与事故管理而非服务台本身相关。对于“事故管理”流程的效果和效率,ITIL 将以下列度量标准为例:
- 事故总数。
- 事故得到解决或得以规避的平均时间(按影响代码划分)。
- 在约定响应时间内已处理事故所占的百分比(如通过影响代码可在 SLA 中指定事故响应时间目标)。
- 每个事故的平均成本。
- 在没有求助于其他支持人员的情况下,由服务台查明的事故所占的百分比。
- 每个服务台工作站处理的事故数量。
- 无需进行访问而远程解决的事故数量和百分比。
在我们详解这些例子之前,请注意它们都是用于定向的度量标准,而不是用于验证、介入或证明的度量标准。这些度量大部分都将有预设定的对象或目标。
现在我们来仔细研究这些度量标准:
事故总数。事故总数是个显而易见的度量标准,但仅在事故报告周期小于等于一天时,此标准才最有用。报告周期也可更长,例如 1 个月或 1 年。 不过,这些报告中的信息应该划分得更细致,可以显示工作流的高峰和低谷。高峰尤其重要。例如,一周中的某一天可能总是比其他时候更为忙碌,或者一个在其中发生更多事故的特定月份。高峰度量标准对于安排员工和制定休假方案很有用。
可设定各个时间段的目标承受能力大小,并将目标承受能力与实际发生的事故量相比较,以便保持适当的员工人数。例如,如果每小时可以处理的事故最多为 200 起,那么实际发生的事故量接近此最大承受能力的频率是多少?如果实际发生的事故量非常接近最大承受能力,那么您就可能需要进行特殊的监视 — 即介入监视或证明监视。您可以确定容量何时用尽以取得主动。
- 业务取向指标 — 用于衡量与您的关键业务客户和合作伙伴之间的工作量,以便根据预计的业务增长量来预测事故的增长量。
事故得到解决或得以规避的平均时间(按影响代码划分)。乍看起来,此度量标准的含义可能并不明显。现在我们来进行分析。在 ITIL 中,“平均用时”通常可以与术语“平均时间”互换。“规避方法”通常称为“解决方案”,而 ITIL 将“影响”描述为“事故对业务危险程度的测定”。对于大多数人来说,“影响”是优先级代码或严重程度代码。此度量标准着眼于事故得到解决或处理所用的平均时间(按照优先级代码或严重程度代码划分)。这是一个很有用的度量标准,因为它有助于确定员工数量的多少。例如,如果知道每个优先级/严重程度级别的平均用时,以及事故的总量,那么您就掌握了用以确定工作用时的基本数据。此外,如果可从近期历史数据中看出平均用时已被改动,那么您就可以通过考虑其对事故管理员工能力的影响来计算其对工作量的影响。
- 业务取向指标 — 与您的关键客户和合作伙伴保持紧密联系,以便在业务环境发生变化需要更改影响代码的情况下可立即作出响应。
在约定响应时间内已处理事故所占的百分比(通过影响代码可在 SLA 中指定事故响应时间目标)。 这是一个重要的度量标准。 不过,在约定响应时间内未处理的事故数量更为重要。在每当事故的处理未达到所签定的 SLA 的要求时,您的客户就不会满意。应该对这些事故进行调查,以确定为何在约定的响应时间内这些事故没有得到处理,然后确定将要采取的措施,以确保减少发生此类事情的次数。
- 业务取向指标 — 业务经理应该能够跟踪任何用时未达到约定服务级别的事故的进度。当解决事故用时超过约定的时间限制时,将会自动通知业务经理。另外,业务经理应该能够复查与未达到约定服务级别的事故相关的历史数据。
每个事故的平均成本。只需进行简单计算即可算出每个事故的平均成本,并可用于许多财务计算,包括费用分摊。然而,要意识到术语“平均成本”可能会令人误解。例如,重新设定口令用时可能少于一分钟,费用也最低,然而一个准时培训问题可能用时 30 分钟,导致高的多的费用。因此,您应该按事故类型计算平均成本。
- 业务取向指标 — 业务经理应该能够随时查看与其业务范围相关的事故成本。理想状态下,应该按种类(如日期或部门)来划分此数据。
在没有求助于其他支持人员的情况下,由服务台查明的事故所占的百分比。这通常也称为“在第一级别解决的事故”,是大多数服务台的主要度量标准。通常,将为第一级别的解决方案设定一个目标,而某些 SLA 包括第一级别的解决方案度量标准。请注意,此度量标准不会错误地塑造服务台的行为,如通过使得查明事故比解决事故更重要进行塑造。
- 业务取向指标 — 业务经理倾向于“减少事故”而不是“在第一级别解决事故”。确保有用以通过故障管理减少事故数量的结构化方法。允许业务经理在故障管理中复查第一级别解决方案数据和事故减少情况。
每个服务台工作站处理的事故数量。这是另一个经典的服务台度量标准,用于监视和测定员工的业绩和能力。 必须尽可能高效地处理事故;因此,这是复查事故管理流程性能的重要度量标准。理想状态下,每个服务台工作站发生事故的数量应该是均衡的。失去平衡表明向服务台工作站分配事故时可能出了问题,这可能会导致效率降低。(当然,除非此不平衡情况是事先安排的,例如,某些工作站可能未处在非高峰期)。意外的失衡情况必须加以调查和纠正。
- 业务取向指标 — 业务经理可能对此总体度量标准不感兴趣。然而,如果此失衡状态是由业务经理或其员工所致,那就需要与其进行协商,并与其讨论导致失衡的原因。例如,某位业务经理或其员工打进电话,指名寻找某个服务台代理,或者将与事故相关的电子邮件直接发给某个代理。
无需进行访问而远程解决的事故数量和百分比。这是一个越来越重要的度量标准。由于采用了越来越多基于知识的技术,这个比例应该增高,而服务台的工作量应该减少。一定还要确保收集有关反映何种工具用于远程处理事故的数据。
- 业务取向指标 — 在远程事故解决过程的所有方面与业务经理进行合作。例如,有时可能给服务台打电话会更快、更经济。业务经理应该能够复查与远程事故解决过程相关的所有活动,从进行这些活动的人员到所用时间及其费用。
如前所述,事故管理的大多数测定和监视活动都是基于定向 进行的。不过,这些度量标准中的某一些可能需要您进行验证或干预,如服务质量下降或成本升高等情况。
> > 第 6 章 - 故障管理