Avaliação com Utilizadores

Avaliação no Ciclo Iterativo

Ao realizarmos qualquer tipo de produto, temos que passar por uma série de etapas de modo a podermos obter o melhor protótipo funcional possível. Na figura abaixo conseguimos ver todos os passos que constituem este ciclo iterativo. Contudo, agora apenas nos vamos focar nos testes.

Para concluir que fizemos um bom trabalho no nosso projeto, temos que realizar uma série de testes com utilizadores exteriores aos membros do nosso grupo para testar a qualidade e utilização no dia-a-dia do que nós fizemos.

Nestes testes pretendemos ter dois objetivos: avaliar e identificar problemas, através de duas componentes distintas:

Usabilidade
Experiência de Utilização

Métodos de Avaliação

Contudo, para fazer estes testes temos que nos focar em dois métodos para, como foi referido acima, obtermos as melhores avaliações possíveis e as críticas que geram mais confiança possível. Por isso, realizamos testes analíticos e testes empíricos.

Testes Analíticos

Os teste analíticos referem-se a avaliações heurísticas, a modelos mais preditivos. Isto é, os testes analíticos referem-se somente a como o nosso trabalho está só por si sem haver pessoas a testarem-no. Aos testes analíticos estão associadas a Lei de Fitts e Machine Learning.

Testes Empíricos

Por outro lado, os testes empíricos referem-se a testes de usabilidade, testes A/B, diários, shadowing, contextual inquiry, entre muitos outros. Estes testes já retratam uma interação com os utilizadores externos para compreender até que ponto o nosso produto pode e é preferido para ser utilizado.

Dentro dos testes empíricos, podemos dividir as observações em duas. Temos observações diretas que retratam utilizadores a serem observados a realizar tarefas, seja presencial ou em vídeo. Um bom exemplo de observação direta é o método Wizard of Oz, como foi realizado no primeiro Bake-Off.

Em termos de observação indiretas referimo-nos a dois tipos de interações:

Manuais - através do uso de diários, por exemplo
Automáticos - através do registo de interação, isto é, interaction logs

Como usamos um diário?

Diários podem ser usados para verificar a utilização a longo prazo de um produto, ou seja, a utilização mais regular durante uma ou mais semanas do nosso produto. Os diários permitem ao utilizador externo partilhar os seus pensamentos, a sua utilidade, a relação com o produto a um nível mais elevado que após somente uma utilização. O nosso objetivo é criar um produto que incorpore as atividades do dia-a-dia, e os diários são a melhor forma de avaliar isso mesmo.

Case Study: Halo 3

"How Microsoft Labs Invented a New Science of Play"

Com o Halo 3, a Microsoft gerou um registo de interação automático, isto é, tinham milhares de jogadores a jogarem todos os dias, avaliando a qualidade e dificuldade excessiva do mesmo.

O que era registado:

Timestamp
Localização do jogador
Número de balas
Eventos (morrer, acertar, etc.)
Para onde está a apontar

Ao avaliar as condições, a Microsoft criou um Heatmap que a cada 5s mudavam a cor do jogador. Desta forma, se havia muitas cores num só sítio então os programadores sabiam que tinham que remodelar o mapa, pois havia muita gente presa nesse sítio, contudo, se o mapa tivesse cores diferentes em lugares diferentes, então tínhamos um bom mapa.

Também viam as munições: o registo automático conseguia avaliar se havia uma zona do mapa em que as balas era todas perdidas, contudo, foi necessário o auxílio do registo direto para compreender o porquê de perderem tantas balas.

Atualmente, é possível lançar um jogo passados apenas 2 ou 3 anos e ir recebendo feedback à medida que os utilizadores vão experimentando e usufruindo do jogo, havendo uma constante remodelação do jogo, em vez de ser necessário esperar 5 anos para poderem lançar o jogo pela primeira vez. Através do feedback e dos testes, os jogos podem melhorar mas ser logo jogados.

Diferentes métodos de Avaliação/Investigação

Entrevistas
Focus groups
Questionários online
Diários
Sondas culturais
Observação
Etnografia
Experience sampling
Registo de interação
Co-desenho
Casos de estudo
Contextual inquiry
Wizard of Oz
Think-aloud
Card sorting
...

Nos Bake-Offs passámos por muitos destes métodos.

Testes de Usabilidade

Para garantir que os nossos produtos são bons e práticos, é necessário fazer testes à usabilidade. Estes testes permitem ao criador identificar problemas (no design e da aplicação ou produto), descobrir oportunidades para melhorar o design e compreender os utilizadores através dos seus comportamentos e preferências.

Tipos de Testes de Usabilidade

Para o primeiro bake-off, focámo-nos bastante na avaliação formativa, enquanto que no segundo, focámo-nos mais no protótipo final e avaliação sumativa. Isto porque não fazia sentido estarmos a fazer avaliações formativas pois ainda não estava feito.

Formativa: realiza-se durante o processo de desenho, os resultados informam a próxima fase de desenho.

"O que acontece durante a interação?"

Sumativa: refere-se a uma avaliação final para aferir sucesso.

"Qual o resultado da interação", ou seja, conseguimos observar o problema mas não como resolve-lo, é o problema das munições referido acima.

Para realizar um bom teste de usabilidade, temos que focar-nos em três parâmetros (elementos) diferentes:

Participantes
Tarefas
Medidas

Participantes/Utilizadores

Os participantes devem ser pessoas próximas do público-alvo, com maior disponibilidade. Também temos que ver uma sample representativa da população humana, ou seja, temos que ter o mesmo número de homens e mulheres de todas as idades (a não ser, claro, que tenhamos um produto específico para um grupo).

NOTA

Quando nos referimos a pessoas com maior disponibilidade temos que ver pessoas que tenham tempo para avaliar o nosso produto com calma. Por exemplo, se temos um produto para médicos, podemos testá-lo com estudantes de medicina.

Para termos uma boa descrição do nosso grupo de participantes temos que ver a sua Demographic Info.

Mas quantos utilizadores devemos ter para que o nosso produto seja devidamente testado sem problemas?

Segundo Nielsen, devemos disponibilizar 20 utilizadores: 4 iterações com 5 utilizadores cada.

Se tivermos

1 utilizador → 33% dos problemas identificados
5 utilizadores → 85% dos problemas identificados
15 utilizadores → 99% dos problemas identificados

segundo um estudo publicado por Nielsen em 1993.

É necessário um grande número de utilizadores para ter a certeza que há sempre uma média não curta e não manipulável.

Tarefas

As tarefas que apresentamos aos nossos participantes têm que ser bastante bem definidas. Têm que ser:

Reais e representativas
O quê e não como
Específicas
Mistura de Complexidades
Avaliação Comparativa
- não favorecer uma das soluções
- usar as mesmas tarefas

Por outras palavras, não podemos favorecer uma das soluções, por exemplo, usando ratos melhores ou dizendo comentários do género "passei vários dias e noites a trabalhar nesta parte" (o utilizador já sabe que essa parte específica vai ser mais favorável).

Medidas de Usabilidade

Tempo para completar a tarefa
Número de erros cometidos
Número de tarefas concluídas
Número de cliques
Número de consultas à ajuda
Satisfação do utilizador

Tipos de dados

Quantitativos (quantidade, específicos e medíveis) - Segundo Bake-Off
- Completou a tarefa? Sim/Não
- Quanto tempo demorou?
- Quantos erros?
- Qual preferiu? A ou B
Qualitativo (qualidade, "aberto") - Primeiro Bake-Off
- O que gostou mais na sua experiência?
- O que pensa do ecrã principal?
- Mais difícil de obter?
Objetivos
- Não dependem da pré-disposição (bias) inerente ao ser humano (ex.: tempo, erros, frequência cardíaca, etc.)
Subjetivos
- Realça a perceção do utilizador (ex.: preferência, SUS, SEQ, etc.)

SUS: acima de 68% é minimamente utilizável, já há valores médios por ser tão utilizado.

SEQ: debriefing se tiveram dificuldade a completar alguma tarefa.

Testes-piloto

Qualquer pessoa pode completá-los, têm que ter 2 a 3 pessoas, é necessário testar procedimento:

Duração
Instruções
Tarefas
Questionário

Os testes-piloto ajudam a encontrar últimos erros antes do produto sair. Para a tese de mestrado será necessário fazer isto a demonstrar como funciona.

Testes A/B

Uma das maneiras mais comuns de testar a usabilidade de um produto é através dos testes A/B. Estes testes têm o objetivo de verificar qual a melhor opção de cor, logótipo, layout de página web, tipografia, botões, etc.

tip

Para o segundo bake-off, é muito recomendado fazer estes testes A/B em que apenas fazemos uma alteração ao projeto, para nos facilitar qual o aspeto que temos que mudar. Tal não era recomendado para o primeiro bake-off, em que tínhamos que fazer mais alterações.

ATENÇÃO

É expectável ter que voltar atrás várias vezes e que a versão que é mais favorável seja uma versão mais antiga. Isto irá acontecer especialmente entre os valores 8 e 10.

"A/B testing is like flossing! All of us should be doing it but most of us are not."

Google's 41 Shades of Blue

Um bom exemplo de testes A/B é o Google's 41 Shades of Blue: nestes testes, a Google mostrou 41 cores diferentes aos seus utilizadores; sempre que alguém entrava no motor de pesquisa, ia para um bucket e assim a empresa podia ver qual a cor que tinha mais sucesso. Apesar de não ser evidente à priori, uma simples mudança de cor fez com que a empresa ganhasse mais $200m por ano.

Esta teste levou a um conflito entre as equipas de Engenharia e de Design na Google, dado a decisão de qual a melhor cor ter sido tomada com base numa experiência prática com utilizadores reais em vez de só com base na expertise da equipa de Design.

Como dividir os grupos?

Existem duas maneiras de dividir os grupos para fazer os testes:

Intergrupos: "Between-subjects", é necessário ter em atenção que temos que recrutar o dobro das pessoas e temos que ter em atenção que os grupos têm que ser comparáveis (ex.: um grupo que tem vacina e outro que não).

Intragrupos: "Within-subjects", cada grupo testa as duas interações, vamos trocando a ordem do uso dos sistemas (aprendizagem, fatiga).
- foi o que fomos fazendo nas aulas práticas durante os bake-offs.

Contudo, temos que ter atenção que há uma série de fatores que influenciam as pessoas. Por exemplo, se um grupo já testou 40 vezes o projeto A pode estar mais viciado nesse projeto, ou pode estar mais cansado desse projeto e tem uma opinião mais influenciada.

Então, como lidamos com os efeitos da ordem de utilização? Temos que ir alterando os testes a cada produto, counter-balancing.

Exemplo

3 sistemas ou versões: A, B, C

Utilizador 1: A B C

Utilizador 2: A C B

Utilizador 3: B A C

Utilizador 4: B C A

Utilizador 5: C A B

Utilizador 6: C B A

Counter-balancing funciona de uma forma fatorial, resumidamente:

3 sistemas: 3! = 6 utilizadores
4 sistemas: 4! = 24 utilizadores
5 sistemas: 5! = 120 utilizadores

Variáveis Dependentes e Independentes

Variáveis Dependentes:

O seu valor depende do sistema a testar
Variáveis medidas no estudo (tempo, erros, SUS)
Relacionados com o objetivo do protótipo

Variáveis Independentes:

Não dependem das variáveis que estamos a medir
Características da solução (layout, cor, etc.)
Características dos participantes (idade, etc.)

Exemplo do segundo bake-off:

Teste sumativo
Intragrupos (se testado nos labs)
Variáveis dependentes
- Tempo, taxa de erro
Variáveis independentes
- Solução mais recente do grupo x (esquema de cores, representação do alvo a escolher, etc.)
Dados quantitativos

Efeitos Secundários

Deparamo-nos agora com um problema, um problema de fixação funcional, feito por Duncker em 1945. Duncker colocou à frente dos seus participantes uma vela, uma caixa de pioneses e fósforos e pediu para cada pessoa arranjar uma forma para que a vela fosse acendida mas não pingasse cera para a mesa. Contudo, dividiu os participantes em dois grupos:

Grupo A tinha os pioneses dentro da caixa
Grupo B tinha os pioneses fora da caixa

Como os pioneses estavam fora da caixa era mais evidente para o grupo B que a caixa trabalhava como outro elemento que pudesse ser utilizado e não somente como um suporte para os pioneses. Assim, o grupo B acabou mais rapidamente a experiência.

Em 1962, Glucksberg testou a mesma experiência, mas adicionou mais uma variável:

Obter o tempo médio de resolução
Recompensa pelo tempo mais rápido. Top 25% recebe $40, mais rápido recebe $150.

Ao motivar os participantes, no grupo que tinha os pioneses na caixa, ou seja, os participantes que necessitavam de mais criatividade, o grupo com recompensa foi mais lento, enquanto no grupo que tinha os pioneses dentro da caixa, o grupo com recompensa foi mais rápido.

Associar recompensa a desempenho aumentou o foco mas restringe a criatividade, é bom para tarefas simples com instruções claras.

Efeito de Hawthorne / Efeito do Observador

"It was suggested that the productivity gain occurred as a result of the motivational effect on the workers of the interest being shown in them." - Henry A. Landsborg, 1958

Por outras palavras, quando há mais pressão, há um ganho de produtividade.

Novelty effect: quando vemos algo novo, ficamos mais excitados sem razão. O produto até pode não ser nada de especial, mas, só por ser algo novo, temos curiosidade. Por isso, temos que testar o produto mais do que uma vez para testar o quão bom e prático é.

Ética avaliação com utilizadores

Assumimos logo à partida que a ética provém de senso comum e que os cientistas são boas pessoas que nunca nos irão pôr numa posição desconfortável ou contra o nosso ser e as nossas crenças, contudo a História conta algo bastante diferente.

Existem vários casos em que, apesar dos cientistas estarem bem intencionados, as suas experiências acabam não só por prejudicar mas como mesmo traumatizar os participantes. Um grande exemplo de tal é a Stanford Experiment, em que um grupo de investigadores pretendia investigar o comportamento humano numa sociedade na qual os indivíduos são definidos somente pelo grupo em que se encontram. Assim, dividiram os participantes em dois grupos, uns que representavam os polícias e outro que representavam os prisioneiros. Contudo, ao fim de muito pouco tempo, os policias, com o poder que lhes subiu à cabeça, já estavam a maltratar a nível não só emocional mas também físico, os prisioneiros. Esta experiência ficou tão conhecida que em 2015 saiu um filme sobre a mesma.

Contudo existem muitos outros exemplos de experiências que acabaram de uma forma não muito favorável para os participantes, como é o caso de Tuskegee syphilis study ou até mesmo Milgram experiment.

Por isso, ao começarmos a testar o nosso projeto com participantes é necessário ter em conta algumas considerações éticas.

Considerações éticas

Temos que sempre manter em consideração que os testes podem causar stress, desconforto, entre outros sintomas aos nossos participantes e por isso é da responsabilidade de quem está a realizar o teste de antecipar e aliviar esses sintomas.

Os participantes são voluntários, por isso consentimento para o que quer que seja é de extrema importância; é necessário evitar pressão para participar, não obrigando ninguém a tal; informar os participantes que podem termninar a qualquer momento; realçar que quem está a ser testado é o sistema, NUNCA os utilizadores; e tornar os dados anónimos/proteger dados.

Também é necessário manter em consideração que existem certas populações vulneráveis, com quem devemos ter ainda mais cuidado, nomeadamente crianças, pessoas com deficiência ou minorias.

Por último, qualquer teste tem que ter uma aprovação de uma comissão de ética para ser realizado.

Três princípios de investigação com pessoas

Resumidamente, existem três princípios muito importantes ao fazer investigação e testes com participantes:

É necessário haver respeito pelas pessoas:

Os indivíduos têm autonomia e escolha
Não podem ser usados como meio para atingir um fim
É necessário proteger os mais vulneráveis
É necessário usar consentimento informado

Beneficência (fazer o bem):

Obrigação de fazer o bem
Obrigação de não prejudicar
Obrigação de prevenir danos
Minimizar riscos, maximizar benefícios
Bondade além do dever
Avaliação de riscos e benefícios

Justiça:

Garantir igualdade
Dividir riscos e benefícios pela amostra
Recrutamento de participantes justo

É sempre necessário ter em conta vários aspetos sobre as pessoas, nomeadamente a nível de crenças, religião, princípios entre outros. Contudo não nos precisamos obrigatoriamente de focar em aspetos como hobbies ou atitudes habituais de uma pessoa, visto que já não afetam a ética de forma alguma.