Entenda o Que é o IRaMuTeQ e o Que Ele Pode Fazer Por Você!

IRaMuTeQ é um software livre que permite realizar análises estatísticas textuais. Entenda como esse software funciona e aprenda a utilizá-lo.

Você chegou aqui por indicação ou buscando no Google o que é IRaMuTeQ? Pois, saiba que, independente da origem, sua dúvida será respondida agora. Direto ao ponto: IRaMuTeQ é um acrônimo para “Interface R para Análise Multidimensional de Textos e de Questionários”, do original em francês “Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires.”

O Software IRaMuTeQ

O IRaMuTeQ, que atualmente (junho/2021) se apresenta na sua versão iramuteq-0.7-alpha2-2020 (de 04/11/2020), é um software gratuito1, ancorado no ambiente estatístico do software R e na linguagem Python, desenvolvido a partir da lógica open source (software livre), dedicando-se desde à análise bem simples, como a lexicografia básica (cálculo de frequência de palavras), até análises multivariadas (classificação hierárquica descendente e análises de similitude). A imagem a seguir apresenta a interface do software.

Principais Funcionalidades

O IRaMuTeQ oferece também a criação de nuvens de palavras, análise fatorial de correspondência através do Método de Reinert, análise de similitude e de subcorpus temáticos ou de metadados. Esses conceitos são explicados a seguir. O corpus textual para análise deve ser escrito numa língua única, que na última versão do programa pode ser, o francês, inglês, alemão, italiano, suíço, português, espanhol, grego ou galego.

Para se poder compreender a análise textual, é necessário inicialmente explicitar alguns conceitos importantes dentro do IRaMuTeQ2:

Análise textual: é um tipo específico de análise de dados, onde tratamos de material transcrito, ou seja, de textos. Essa análise tem várias finalidades, sendo possível analisar textos, entrevistas, documentos, redações, etc. A partir da análise textual é possível descrever um material produzido por um produtor, seja individual ou coletivamente, como também pode-se utilizar a análise textual com a finalidade relacional, comparando produções diferentes em função de variáveis específicas que descrevem quem produziu o texto.

Corpus: é o conjunto de textos que se pretende analisar. Por exemplo, numa pesquisa documental se um pesquisador decide analisar os artigos que saíram na sessão de saúde de um jornal, em um determinado período temporal, o corpus seria o conjunto destes artigos. Outro exemplo seria um corpus composto de 200 respostas a uma questão aberta, que faz parte de um questionário empregado como instrumento de uma pesquisa do tipo enquete.

Textos: como já vimos nos exemplos relativos a um corpus, a definição destas unidades é feita pelo pesquisador e depende da natureza da pesquisa. Se a análise vai ser aplicada a um conjunto de entrevistas, cada uma delas será um texto. Caso a análise diga respeito às respostas de “n” participantes a uma questão aberta, cada resposta será um texto e teremos “n” textos.

Segmentos de Texto: são excertos de texto, na maior parte das vezes, do tamanho de três linhas, dimensionadas pelo próprio software em função do tamanho do corpus. Os segmentos de textos que são considerados o ambiente das palavras. Seu tamanho também pode ser configurado pelo pesquisador. Numa análise padrão, após reconhecer as indicações dos textos a serem analisados, é o software IRaMuTeQ que divide os textos do corpus em segmentos de texto.

A figura seguinte apresenta pictoricamente as noções de corpus, texto e segmento de texto.

Especificidades: associa textos com variáveis, ou seja, possibilita a análise da produção textual em função das variáveis de caracterização. É possível modelo de análise de contrastes das modalidades das variáveis e também a apresentação em plano fatorial. A figura a seguir apresenta o resultado em plano fatorial do IRaMuTeQ.

Método da Classificação Hierárquica Descendente (CHD): os segmentos de texto são classificados em função dos seus respectivos vocabulários, e o conjunto deles é repartido em função da frequência das formas reduzidas. A partir de matrizes cruzando segmentos de textos e palavras (em repetidos testes do tipo chi2), aplica-se o método de CHD e obtém-se uma classificação estável e definitiva. Esta análise visa obter classes de segmentos de texto que, em simultâneo, apresentam vocabulário semelhante entre si, e vocabulário diferente dos segmentos de texto das outras classes, sendo uma das funções mais importantes do IRaMuTeQ.

Como já apresentado, o IRaMuTeQ oferece a possibilidade de diferentes formas de análise de dados textuais. Segue definição de quais análises são possíveis de ser realizadas pelo IRaMuTeQ2:

Análises lexicográficas clássicas: identifica e reformata as unidades de texto, identifica a quantidade de palavras, frequência média e hápax (palavras com frequência unitária), pesquisa o vocabulário e reduz as palavras com base em suas raízes (formas reduzidas), cria o dicionário de formas reduzidas e identifica formas ativas e suplementares. Um dos resultados dessa análise é o Diagrama de Zipf3, que é um gráfico que representa a frequência de palavras em relação ao peso das palavras no corpus. 

Análise de similitude: essa categoria de análise baseia-se na teoria dos grafos e é utilizada frequentemente por pesquisadores das representações sociais (cognição social). Possibilita identificar as coocorrências entre as palavras. Seu resultado traz indicações da conexidade entre as palavras, auxiliando na identificação da estrutura da representação. Na figura abaixo um exemplo de grafo, da análise de similitude, é apresentado.

Nuvem de palavras: agrupa as palavras e as organiza graficamente em função da sua frequência. É uma análise lexical mais simples, porém graficamente interessante. Nele é possível configurar o número de palavras, o tamanho dessas palavras e as cores de fundo e texto. Segue abaixo um exemplo de nuvem de palavras produzida pelo IRaMuTeQ.

Análise fatorial de correspondência (AFC): permite, através de gráficos, visualizar a proximidade das palavras e das classes oriundas da CHD; não se trata de contar palavras, mas de relações entre elas. A AFC pode ser interpretada como oposição entre os eixos X e Y, ou confronto de discursos.

Aplicação do IRaMuTeQ

O IRaMuTeQ pode ser utilizado então para análise textual, facilitando a interpretação de grande volume de dados textuais, mais amplamente descritos pelas palavras do corpus textual. A partir da coleta dos textos, utilizam-se ferramentas para construção do corpus, tais como editores de textos ou planilhas (Bloco de Notas, Notepad++, MS Excel®, etc.), para preparo para ser processado no IRaMuTeQ. Como recomendado2, esse tratamento de dados passa por quatro etapas:

1. Reunir todos os textos em um único arquivo e inspecionar visualmente, para identificação e exclusão de repetições desnecessárias e de elementos textuais que não agregam nenhum tipo de valor, como conectores e caracteres especiais não suportados pelo software;

2. Separação dos textos com sua identificação, codificada para o IRaMuTeQ, conforme as variáveis eleitas para as análises. Uma variável pode ser qualquer identificador: como sexo, idade e grupo social de um respondente, origem do texto, data, etc.;

3. Correção e revisão de todo o corpus textual, para que os erros de digitação ou outros de escrita não sejam tratados como palavras diferentes pelo software, bem como uniformização em relação às siglas e termos que devem ser tratados juntos, pelo mesmo motivo; e

4. Conversão deste conjunto de textos para arquivo do tipo .TXT, normalmente codificado em UTF-8, formando o corpus textual final para análise do IRaMuTeQ.

O corpus textual final inclui normalmente formas gramaticais ativas, ou seja, substantivos, verbos (suplementares ou não), adjetivos (suplementares ou não), advérbios (suplementares ou não), formas não reconhecidas e as formas suplementares que, neste caso, incluem apenas substantivos suplementares e adjetivos numéricos.

A análise no IRaMuTeQ pode então seguir os seguintes passos:

1. Carregamento do corpus:

a. Carga do corpus textual e geração de estatísticas;

b. Formas ativas e segmentos de textos;

c. Criação de Subcorpus, caso seja necessário para análises adicionais.

2. Análises:

a. Aplicação do Método de Reinert;

b. Geração do Dendrograma CHD sobre o corpus;

c. Análise Fatorial de Correspondência (AFC);

d. Análise de Similitude;

e. Nuvem de palavras.

3. Interpretação:

a. Relações entre palavras;

b. Comparação de discursos.

Análise de Conteúdo Qualitativo

A partir dos relatórios do software, podem ser tecidas análises, onde são apresentados resultados e interpretações para todo o corpus e para os subcorpus. Metodologia de análise tem que ser estabelecida previamente a essa interpretação pelo pesquisador. Duas grandes teorias são normalmente aplicadas nas áreas de pesquisa social, são elas, a Análise de Conteúdo4, da Bardin e as Representações Sociais5 do Moscovici.

A Análise de Conteúdo é uma metodologia das ciências sociais para estudos de conteúdo em comunicação e textos que parte de uma perspectiva quantitativa, analisando numericamente a frequência de ocorrência de determinados termos, construções e referências em um dado texto. Em Comunicação, é frequentemente usada como contraponto à análise do discurso, eminentemente qualitativa.

Consiste em uma técnica metodológica que se pode aplicar em discursos diversos e a todas as formas de comunicação, seja qual for o seu suporte. A enumeração pode ser feita através da presença (ou ausência), frequência, frequência ponderada, intensidade, direção, ordem e co-ocorrência (análise de contingência). Depois da codificação, deve ser feita a categorização, que seguirá algum dos seguintes critérios: semântico, sintático, léxico ou expressivo.

Representações Sociais são o conjunto de conhecimentos, opiniões e imagens que permitem evocar um dado acontecimento, pessoa ou objeto. Estas representações são resultantes da interação social, pelo que, são comuns a um determinado grupo de indivíduos.

Comparativo com outros softwares de análise qualitativa

O uso de softwares para análises qualitativas apresenta como vantagens: a economia de tempo demandado para organizar, analisar e tratar as informações coletadas; e trabalhar com dados qualitativos (entrevistas, textos, grupos focais, questionários online, etc.).

Eles surgiram na década de 1980 como Qualitative Data Analysis Softwares (QDAS) para computação qualitativa não numérica. Desde sua origem, os QDASs permitem manipulação de textos digitalizados ou escaneados, classificação hierárquica e temática, e ferramentas gráficas para filtragem (análise fatorial).

Evoluíram nesses 40 anos com novas tecnologias para mineração de dados, análise textual, incorporação de dados multimídia e de redes sociais e o uso de Inteligência Artificial.

Atualmente, os quatro softwares mais conhecidos no Brasil são o ALCESTE, Atlas.ti, NVIVO e o IRaMuTeq. O Alceste foi criado por Reinert em 1990, ele faz quantificação de textos e estabelece trajetórias de interpretação. O NVIVO, da empresa QSR International existe desde 1997, e consiste em um pacote qualitativo de software para análise de dados. Já o Atlas.ti é uma ferramenta que auxilia o pesquisador no processo de organização da análise dos dados qualitativos. O IRaMuTeQ, como já explicado, é um Software livre ligado ao pacote estatístico R para análises de conteúdo, lexicometria e análise do discurso. Desses, apenas o IRaMuTeq é de código aberto e de livre utilização.

O que você faz com tudo isso?

Ficou claro então que o IRaMuTeQ é uma ferramenta que pode auxiliar o pesquisador na tarefa de tornar o subjetivo mais objetivo sem perder seu elemento mais característico: a possibilidade de explorar o fenômeno de maneira mais aprofundada.

Ele tem aplicação em diferentes contextos: linguística, processamento de questionários, consultoria, marketing, publicidade, jornalismo, história, sociologia, direito, medicina, enfermagem, pesquisa documental, análise de imprensa, legislação, regulação, política, entre outros.

Traz rigor científico na análise dos textos: quantificando um texto para extrair as estruturas mais significativas, pois essas estruturas estão estreitamente relacionadas com a distribuição de palavras em um texto, o que raramente é aleatória. Importante salientar, no entanto, que, os métodos informatizados de análise em nada excluem a necessidade de conhecimento e interpretação subjetiva por parte do pesquisador durante o tratamento das informações.

Coloque em prática!

Agora que você sabe o que é o IRaMuTeQ, e suas principais funcionalidades, está na hora de aprender a usá-lo:

Venha aprender a fazer uma análise de especificidade para as suas variáveis de caracterização, crie o dendrograma do corpus que está analisando, construa o grafo na análise de similitude e entenda a relação entre os objetos da sua pesquisa, e crie a nuvem de palavras que possibilita rápida identificação de palavras-chave.

Para isso tudo se inscreva na nossa próxima turma do Curso IRaMuTeQ clicando aqui:

Notas e Referências

1. O IRaMuTeQ foi desenvolvido por Pierre Ratinaud, do Laboratoire d’Études et de Recherches Appliquées em Sciences Sociales (Laboratório de Estudos e Pesquisas Aplicadas em Ciências Sociais), da Universidade de Toulouse III, utilizando a interface do software R (R Project for Statistical Computing). Pode ser baixado em http://www.iramuteq.org/.

2. Camargo, Brigido V. e Justo, Ana M. Tutorial para uso do software de análise textual IRAMUTEQ, LACCOS, Universidade Federal de Santa Catarina, 2013. Disponível em http://www.iramuteq.org/documentation/fichiers/tutoriel-en-portugais (acesso em 26/6/2021).

3. A Lei de Zipf, formulada na década de 1940 por George Kingsley Zipf, linguista da Universidade de Harvard, na sua obra Human Behaviour and the Principle of Least-Effort (“Comportamento Humano e o Princípio do Menor Esforço”), é uma lei empírica a qual rege a dimensão, importância ou frequência dos elementos de uma lista ordenada. Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Fonte: https://pt.wikipedia.org/wiki/Lei_de_Zipf.

4. BARDIN, Laurence. Análise de conteúdo. São Paulo: Edições 70, 2011, 229 p.

5. Moscovici, Serge. Social Representations: Explorations in Social Psychology, Polity Press, 2000, 328 p.

Link curto para esta páginahttps://bit.ly/OqueeIRaMuTeQ

4 comentários em “Entenda o Que é o IRaMuTeQ e o Que Ele Pode Fazer Por Você!”

  1. Boa tarde! Gostaria de uma ajuda ou consultoria. O meu iramuteq quando abro, aparece uma caixa que esta baixando test de ca. So que nunca carrega. Gostaria de auxilio com isso.

Deixe um comentário para Jaqueline Vianna Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *