自动可用性测试


编译:刘静
参考:Automated Usability Testing
作者:Tom Tullis
来源:User Experience, Volume 7 Issue 3. 2008

本文是一个关于自动可用性测试的案例研究。富达投资公司用户体验小组成员在过去五年里做过40多个非引导型远程可用性测试,这里是他们在基于这些测试的基础上所做的经验性总结。非引导型远程可用性测试能够揭示多个不同设计方案之间的可用性差异,这在传统的实验室测试中是很难被发现的。
  非引导型远程可用性测试的优点之一在于参与者的数量上,有些研究可以利用自己公司的雇员作为用户,这样就可以在几天的时间里找到成百上千的参与者。通常情况下,都可以在一周时间内找到至少200名参与者参与这样的远程活动。众多的人数提供了庞大的数据信息。在对两个设计进行比较时,常规的做法是分析它们在任务完成率、任务执行时间、主观满意度等指标上的统计学意义的差异。尽管表现出来的可能是很小的设计差异(例如在一个网页中,某个链接使用了不同的措词),但从可用性度量标准来说可能产生很大的不同。

非引导型远程可用性案例研究

描述非引导型远程可用性测试最好的方法就是使用一个实例来说明。因此,这里所介绍的就是对比两个与“阿波罗空间问题”有关系的网站。它们分别是:

  • NASA(美国国家航空和航天局)官方网站
  • Wikipedia(维基百科)网

在这项研究中,参与者被随机地分配使用两个网站中的一个,完成事先设计好的任务。这些事先设计的问题在被测试的两个网站中都能找到答案。最终的任务有9个,分别是:
1. 登月舱有多少条支柱?
2. 哪一次阿波罗任务带回了两年前登陆月球的3号测量太空船的碎片?
3. 著名的地出照片,即地球从月球的地平线升起的照片,是由哪一次阿波罗太空行动拍摄到的?
4. 哪一次载人阿波罗任务在升空后不久遭遇闪电袭击?
5. 谁是阿波罗14号的指挥舱驾驶员?
6. 最后在月球上行走的两个人是谁?
7. 哪一次阿波罗行动带回了所谓的“创世岩体(Genesis Rock)”?
8. 阿波罗12号登月舱的名字是什么?
9. 阿波罗14号探测了月球的哪个区域?
  一个好的任务是已经清晰定义了正确答案的任务。在这次研究中,参与者从一个下拉列表中选择每一个问题的答案,虽然研究中也使用了自由输入文本的方式收集答案,结果却给分析带来了一定的麻烦。
  根据以往的经验,在非引导型的远程可用性测试中,一般让参与者在30分钟内完成所有的任务。在本次研究中,为了缩减每个参与者完成全部任务的时间,从9个任务中随机选择4个分配给用户,任务出现的顺序也是随机的,以减少固定任务顺序对结果产生的影响。由于有众多的参与者,因此使用这种方法可以在缩短每个参与者任务执行时间的同时,很好地覆盖到所有任务。

参与者首先将会看到此次研究的概要介绍,阅读完毕点击“Next”,则出现一组指示说明,当点击“Begin Study”按钮时,会展开充满整个屏幕的上下两个窗口,如上图所示。顶端的小窗口用来呈现要执行的任务,下面较大的窗口用于呈现要评估的两个网站之一。用户在被评估网站上自由浏览,但规定不要使用其他网站(如Google)寻找答案。每个任务中会有一个下拉列表,列出可能的答案选项。其中包含“以上都不是”和“放弃”两项,这些选项中有一个是正确答案,用户选择一个答案(包括“放弃”选项)才能继续下一个任务。同时参与者也要对完成任务的难易程度进行评估,采用五分制进行度量,从非常难到非常简单。系统自动记录每个任务完成的时间。在用户完成四个任务后,要求使用7分制对网站整体进行两个方面的评价:

  • 总体来说,在这个网站上找到一个信息的难易程度。
  • 总体来说,从视觉角度看这个网站吸引人的程度。

案例研究结果

介绍这个案例的主要目的是阐述这种测试技术,而不是严格地评估这些特定的网站,在2008年3月11日到20日十天的时间里,通过发布这个远程可用性研究链接来收集数据。在这个研究中的很多参与者都工作在可用性的相关领域,因此这样的样本不应该被看作是随机样本。共有192人参与了这一研究,最终有130人(占68%)完成了任务。
  对非引导型远程研究来说,一大挑战就是对有效参与者的识别,有些人可能没有真正执行任务而是随便点击了一个选项或者选择“放弃”选项从而走完全部任务。在这类研究中,大约有10%的参与者属于这一类。为了识别这些参与者,首先项目组成员在被评估的两个网站上多次完成所有任务,准确地找到答案在网站所处的位置。最后得出最快速度是平均每个任务30秒钟,据此排除了13名完成每个任务的时间都不足30秒钟的参与者。最终有效参与者数量为117人,其中56人使用了NASA网站,61人使用Wikipedia网站。
  这项研究最基本的发现是,使用Wikipedia网的用户,相对于使用NASA网站用户:

  • 执行任务的准确率更高(71% vs. 58% ,p=0.03 t-test)。
  • 执行每个任务的时间略快(1.8 vs. 2.2分/任务,大约缩短23秒,p=0.07)。
  • 在基于五分制的任务评价中可以看出,任务执行更容易(3.1 vs. 2.6 ,p<0.01)。

一种在总体上查看每个网站中执行任务的方法是将准确率、执行时间、评分数据转换成百分比,然后一起求平均,这样就可以为每个任务提供一个整体的可用性评分,如图。根据这个分数,如果一个任务具有准确率高、最快的任务完成时间并且任务简单性评分最高的特征,那么它的总体评分为100分。结果清楚地表明,任务3和任务7最容易,对于Wikipedia网站来说更是如此,而任务4和任务8是最难的。
  任务完成后,参与者从“寻找信息的难易度”和“视觉吸引力”两方面对网站的总体感觉给出评分。Wikipedia网站在容易寻找信息方面得分明显较高(p<0.01),而NASA网站在视觉吸引力方面略高(p=0.06)。

优点和缺点

非引导型的远程可用性研究最大的优点是可以在很短的时间内,从大量的参与者中收集数据。因为他们在网络上的参与是并行的,参与者的数量由你的招募能力决定,大量的参与者还有以下优点:

  • 与传统的引导型可用性测试不同,参与者数量的增加不会带来明显的费用增加。
  • 大量的参与者可以覆盖更多的典型用户,特别是在用户群很大并且具有多样性的情况下。
  • 用户在自己的环境中,使用自己的系统参与测试,这样就提供了多样的测试环境(屏幕分辨率、屏幕尺寸、浏览器等)。
  • 大样本可以发现可用性度量上的潜在差异(任务成功率、时间、评价等),这通常在普通的引导型可用性测试中很难被发现。
  • 非引导型远程可用性研究非常适合于多种设计之间的对比,最多曾经有过对10个设计进行比较的研究,在仅仅几天的时间里,通过大量的用户测试,很快就识别出了最优的方案。
  • 非引导型远程可用性研究在有些情况下并不适合:

  • 被测试的原型或设计必须在一定程度上支持任务的执行,用户需要能够很好地判断出他们是否完成了任务。
  • 原型必须相当稳定,因为用户在没有引导人员干预的情况下自己操作,一旦出现错误什么情况都有可能发生。

非引导型远程可用性测试中所定义的任务需要有清楚的结束状态,能够找到明确答案的那种任务最好。在开发前期的探索性研究阶段,或者在希望能够时时与用户对话和了解他们正在进行的操作的情况下,都明显不适合于这种方法。
  非引导型远程可用性测试永远也不会完全取代传统的引导型可用性测试。在引导型测试中,直接观察用户的操作或者与用户互动,能够得到很丰富的定性数据。非引导型可用性研究能够从大量的用户样本中提取令人吃惊的数据,这也可以弥补缺少直接观察和交互所带来的缺陷。

作者介绍

原文作者Tom Tullis,是富达投资公司用户研究部门的高级副主管,有30多年的人类因素和可用性研究经验,发表过五十多篇论文,并且与Bill Albert合著一本书:《 Measuring the User Experience: Collecting, Analyzing, and Presenting Usability Metrics》。

中心通讯

第三期

中心主任寄语

中心宣传册1,460K

NCR-DMU人机交互研究中心

UsabilityNet