Ontologias são Superestimadas: Categorias, Links e Etiquetas

Esse texto é baseado em duas palestras que dei na primavera de 2005 — uma na conferência O’Reilly ETech em março, intitulada “Ontologias são superestimadas” e outra no IMCExpo em abril entitulada “Folksonomias & Etiquetas: a emergência da classificação desenvolvida por usuários”. A versão escrita é uma grande edição destas duas palestras.

Hoje eu quero falar sobre categorização e quero convencê-los de que muito do que pensamos saber sobre categorização está errado. Em particular, quero convencê-los de que várias das tentativas de aplicar a categorização ao mundo eletrônico são na verdade inadequadas, porque adotamos hábitos mentais que são frutos de estratégias antigas.

Também quero convencê-los de que o que vemos na Web é na verdade uma ruptura radical com as estratégias prévias de categorização, em vez de uma extensão delas. A segunda parte da palestra é mais especulativa, por que geralmente acontece de os velhos sistemas se quebrarem antes mesmo que as pessoas saibam o que tomará o seu lugar. (Qualquer pessoa que observa a indústria musical pode ver isso acontecendo hoje). Isso é o que eu acho que está acontecendo com a categorização.

O que acho que está por vir são modos muito mais orgânicos de organização da informação – do que os nossos atuais esquemas de categorização permitem – baseado em duas unidades: o link, que pode apontar para qualquer coisa, e a tag (etiqueta), que é uma forma de anexar marcações em links. A estratégia de etiquetagem (tagging) — uma forma livre de marcação, sem levar em conta restrições de categorias — parece ser uma receita para o desastre, mas como a Web tem nos mostrado, você pode extrair uma quantidade surpreendente de valor de conjuntos de informações completamente bagunçados.

PARTE I: Classificação e seus (Des)Conteúdos

Q: O que é Ontologia? A: Depende de qual o significado de “é” é.

Preciso fornecer algumas definições rápidas, começando com ontologia. É uma rica ironia que a palavra “ontologia”, que tem a ver com esclarecer e explicitar afirmações sobre entidades num domínio particular, tenha tantas definições conflitantes. Oferecerei duas definições gerais.

A principal definição de ontologia no sentido filosófico é o estudo das entidades e suas relações. A questão que a ontologia pergunta é: quais tipos de coisas existem ou podem existir no mundo, e que tipo de relações essas coisas podem ter umas com as outras? Ontologia está menos preocupada com o que é do que com o que é possível.

As comunidades de gestão do conhecimento e inteligência artificial tem uma definição relacionada — eles pegaram a palavra “ontologia” e aplicaram-na mais diretamente ao seu problema. O sentido de ontologia é algo como “uma especificação explicita de uma conceitualização”.

O ponto comum entre as duas definições é a essência, o qualidade/capacidade de ser. Em um domínio particular, quais tipos de coisas nós podemos dizer que existem naquele domínio e como nós podemos dizer que essas coisas relacionam-se entre si?

O outro par de termos que preciso definir é categorização e classificação. Esses são os atos de organizar uma coleção de entidades, sejam coisas ou conceitos, em grupos relacionados. Embora existam algumas distinções de campo para campo, os termos são usados em geral de forma intercambiável.

E então há a categorização ou classificação ontológica, que é organizar um conjunto de entidades em grupos, baseados em suas essências e possíveis relações. Um catálogo de biblioteca, por exemplo, entende que para cada livro novo, seu lugar lógico já existe dentro do sistema, mesmo antes de o livro ser publicado. Essa estratégia de designação de categorias para cobrir possíveis casos antecipadamente é o que me preocupa, pois é tanto amplamente usado quanto totalmente ultrapassado em termos de valor no mundo digital.

Agora, qualquer pessoa que lide com categorização em sua profissão irá dizer que nunca se pode conseguir um sistema perfeito. Em sistemas de classificação que funcionam, o sucesso não é “Conseguimos o arranjo ideal?” mas “O quão perto chegamos e em que medidas?”. A idéia de um esquema perfeito é simplesmente um ideal platônico. Entretanto, quero argumentar que mesmo o ideal ontologico é um erro. Até mesmo usar perfeição teórica como medida de sucesso prático leva a má aplicação de recursos.

Agora, aos problemas da classificação.

Dividindo a natureza em suas articulações

[ A Tabela Periódica de Elementos ]

A tabela periódica de elementos é o meu voto para “Melhor Classificação de Todos os Tempos”. Parece que ao organizar elementos pelo número de prótons no núcleo, você tem todo esse valor fantástico, tanto descritivo quanto previsível. E já que o que você está fazendo é organizar coisas, a tabela periódica está tão próxima de fazer afirmações sobre essência tanto quanto for fisicamente possível. Esse é um esquema realmente poderoso, quase perfeito. Quase.

Ali na coluna do lado direito, a coluna rosa, estão os gases nobres. Bem, gás nobre é uma categoria estranha, porque hélio não é mais gás do que mercúrio é um líquido. Hélio não é fundamentalmente um gás, é só um gás nas temperaturas mais altas, mas as pessoas que o estudavam na época não sabiam isso, porque elas não eram capazes de fazê-lo frio o suficiente para ver que hélio, como qualquer outra coisa, tem estados diferentes da matéria. Sem as medidas corretas, eles assumiram que a gasosidade era um aspecto essencial – literalmente, parte da essência – destes elementos.

Mesmo num esquema de categorização quase perfeito, existem esses tipos de erro de contexto, onde as pessoas estão colocando algo que é meramente verdade em temperatura ambiente, e é absolutamente não relacionado à essência, bem no centro da categorização. E a categoria ‘gás nobre’ permaneceu lá desde o dia em que a colocaram, por que nós todos nos acostumamos a essa anomalia como se fosse um acidente congelado.

Se é impossível criar uma categorização completamente coerente, mesmo quando você está fazendo algo fisicamente relacionado a essência como química, imagine os problemas encarados por qualquer um que esteja lidando com um domínio onde a essência é ainda menos óbvia.

O que me leva ao assunto das bibliotecas.

Sobre fichas e catálogos

A tabela periódica leva meu voto para melhor esquema de categorização de todos os tempos, mas as bibliotecas tem os melhores esquemas de categorização conhecidos. A experiência do catálogo de biblioteca é provavelmente o que as pessoas conhecem melhor como uma visão altamente ordenada do mundo, e esses sistemas de catalogação contém todos os tipos de mapeamentos estranhos entre as categorias e o mundo que eles descrevem.

Aqui está a categoria de primeiro nível nos sistemas de biblioteca soviéticos:

A: Marxismo-Leninismo
A1: Trabalhos clássicos de Marxismo-Leninismo
A3: Vida e trabalho de K.Marx, F.Engels, V.I.Lenin
A5: Filosofia Marxista-Leninista
A6: Economia Política Marxista-Leninista
A7/8: Comunismo Científico

Algumas dessas categorias estão começando a parecer um pouco datadas.

Ou, a minha favorita — essa é a categorização do sistema decimal de Dewey para religiões do mundo, que está na categoria 200.

Dewey, 200: Religião
210 Teologia Natural
220 Bíblia
230 Teologia cristã
240 Moral cristã & teologia de devoção
250 Ordens cristãs e igrejas locais
260 Teologia social cristã
270 História da igreja cristã
280 Divisões cristãs e denominações
290 Outras religiões

O quanto essa não é o tipo de categorização que queremos no século 21?

Esse tipo de parcialidade existe muito em sistemas de categorização. Aqui está a categorização de história da Biblioteca do Congresso. Essas são todas as categorias de primeiro nível — todas essas são apresentadas como sendo de mesmo nível.

D: História (geral)
DA: Grã Bretanha
DB: Áustria
DC: França
DD: Alemanha
DE: Mediterrâneo
DF: Grécia
DG: Itália
DH: Países Baixos
DJ: Holanda DK: Antiga União Soviética
DL: Escandinávia
DP: Peninsula Ibérica
DQ: Suíça
DR: Península Balcânica
DS: Ásia
DT: África
DU: Oceania
DX: Ciganos

Eu gostaria de chamar atenção para os que estão em negrito: a Península Balcânica. Ásia. Africa.
E só, enfim, reveja a geografia:

[ Viu a diferença? ]

Porém, por toda a esquisitice de colocar a Peninsula Balcã e a Ásia no mesmo nível, isso é ainda mais difícil de rir do que o exemplo de Dewey, por ser tão intrigante. A Biblioteca do Congresso — não há folgados no departamento de inteligência, fundado por Thomas Jefferson — tem um staff de pessoas que não fazem nada a não ser pensar em categorização o dia inteiro. Então o que está sendo otimizado aqui? Não é geografia. Não é a população. Não é o PIB regional.

O que está sendo otimizado é o número de livros na estante. É isso o que o esquema de categorização está categorizando. É tentador pensar que os sistemas de classificação que as bibliotecas otimizaram no passado podem ser estendidos de forma descomplicada para o mundo mundo digital. Isto subestima horrivelmente, no meu ponto de vista, o quanto aquilo que as bibliotecas têm organizado historicamente se configura em um problema completamente distinto.

A musculatura do esquema de categorização da Biblioteca do congresso parece se basear em conceitos. É organizado em categorias que não se sobrepõem, ficando mais detalhadas em níveis menores — qualquer conceito deve encaixar-se em uma categoria e em nenhuma outra categoria. Mas vez e outra, o esqueleto transparece, e esse esqueleto, a estrutura de apoio na qual o sistema é realmente construído, é designado para minimizar o tempo de busca nas estantes.

A essência de um livro não são as idéias que ele contém. A essência de um livro é “livro”. Pensar que catálogos de biblioteca existem para organizar conceitos confunde o recipiente por aquilo que ele contém.

O esquema de categorização é uma resposta às restrições físicas de armazenamento e à incapacidade das pessoas de manterem a localização de mais de uma centena de coisas em suas mentes de uma vez. Uma vez que você tem mais de uma centena de livros, você tem que organizá-los de alguma forma. (Minha mãe, que era uma bibliotecária de referência, disse que ela queria reorganizar toda a biblioteca universitária por cor, porque os estudantes chegavam nela e diziam “Estou procurando por um livro verde de sociologia…”). De qualquer maneira que você faça isso, a fragilidade da memória humana e o fato físico de livros tornarem algum tipo de esquema organizacional um requisito, e a hierarquia, é um bom modo de administrar objetos físicos.

O tipo de desequilibrio “Península Balcânica/Ásia” é simplesmente um subproduto de restrições físicas. Não são as idéias em um livro que tem que estar em um lugar — o livro pode ser de várias coisas ao mesmo tempo. É o livro em si, o fato físico do objeto relacionado, que tem que estar em um lugar, e se está em um lugar, não pode estar em outro. E isso significa que um livro tem que declaradamente ser sobre uma coisa principal. Um livro que é igualmente sobre duas coisas quebra o requerimento de ‘estar em um lugar’, então cada livro precisa ser declarado ser sobre uma coisa mais que outras, independente de seu conteúdo de fato.

As pessoas tem se assustado com a virtualidade das informações por décadas e você pensa que nós internalizamos a verdade óbvia: não existem prateleiras. No mundo digital, não existem restrições físicas que nos obrigam a esses tipos de organização. Nós podemos fazer sem ele, e você acha que já deveríamos ter aprendido uma lição até então.

E ainda…

A parábola do ontólogo, ou, “Não existem estantes”

Um pouco mais de 10 anos atrás, alguns caras da Stanford lançaram um serviço chamado Yahoo que oferecia uma lista de coisas disponíveis na Web. Foi a primeira tentativa realmente significativa de tentar trazer ordem à Web. Como a Web expandiu-se, a lista do Yahoo se desenvolveu numa hierarquia de categorias.Como a Web expandiu-se mais ainda eles perceberam que, para manter o valor no diretório, eles teriam que sistematizar, então eles contrataram um ontólogo profissional e desenvolveram suas próprias categorias de alto nível, agora familiares, que tem subcategorias e cada subcategoria contém links para ainda outras subcategorias, e assim por diante. Agora temos essa lista ontologicamente administrada sobre o que existe por aí.

Aqui estamos em uma das categorias de alto nível do Yahoo, Entretenimento.

[ Categoria de Entretenimento do Yahoo ]

Você pode ver o que as sub-categorias de entretenimento são, tenham ou não novas adições, e quantos links ficam embaixo dessas subcategorias. Exceto, no caso de Livros e Literatura, aquela sub-categoria não te diz quantos links tem abaixo dela. Livros e Literatura não terminam com um número de links, mas com um sinal de “@”. Esse sinal está te dizendo que a categoria de Livros e Literatura não é ‘na realidade’ na categoria de entretenimento. O Yahoo está dizendo “Nós colocamos esse link aqui para sua conveniência, mas isso é apenas pra te levar onde Livros e Literatura ‘realmente’ estão”. Ao que podemos apenas responder — “O que é real?”

O Yahoo está dizendo “Nós entendemos melhor que você como o mundo é organizado, por que nós somos profissionais treinados. Então se você pensar erroneamente que Livros e Literatura são entretenimento, nós colocaremos um sinalzinho para que você entenda mas para ver esses links, você terá que ‘ir’ onde eles ‘estão’”. (Meus dedos irão cair por causa de todas essas apóstrofes). Quando você vai para Literatura — que é parte de Humanidades e não Entretenimento — dizem pra você, similarmente, que os vendedores de livros não estão ‘realmente’ ali. Por serem um serviço comercial, vendedores de livros estão ‘na verdade’ em Negócios.

[ ‘Literatura’ no Yahoo ]

Veja o que aconteceu aqui. O Yahoo, encarando a possibilidade de que eles poderiam organizar coisas sem restrições físicas, adicionaram de volta a estante. Eles não poderiam imaginar a organização sem as limitações das estantes, então eles as adicionaram de volta. É perfeitamente possível para qualquer número de links estar em qualquer número de lugares numa hierarquia, ou em várias hierarquias, ou em nenhuma hierarquia sequer. Mas o Yahoo decidiu privilegiar um modo de organizar os links sobre todos os outros, por que eles queriam fazer afirmações sobre o que é “real”.

Uma explicação caridosa para isso é que eles pensaram nesse tipo de organização a priori como seu trabalho e como algo que seus usuários valorizariam. A explicação não caridosa é que eles pensaram que existia valor de negócios em determinar a visão que o usuário teria de adotar para usar o sistema. Ambas explicações podem ter sido verdade em tempos diferentes e em medidas diferentes, mas o efeito foi sobrepor a conclusão dos usuários sobre onde as coisas deveriam estar e insistir na visão do Yahoo.

Sistemas de Arquivos e Hierarquia

É fácil ver como a hierarquia do Yahoo mapeia as restrições tecnológicas bem como as físicas. As restrições no diretório do Yahoo descrevem tanto um esquema de categorização da biblioteca e, obviamente, um sistema de arquivo – o sistema de arquivo é tanto uma ferramenta poderosa quanto uma metáfora poderosa, e estamos tão acostumados a ela que parece natural.

[ Hierarquia ]

Há um nível no topo e os subdiretórios ficam abaixo dele. Subdiretórios contém arquivos ou outros subdiretórios e assim por diante, até embaixo. Tanto bibliotecários e cientistas da computação chegam à mesma idéia similar, que é “Bem, não faz mal adicionar alguns poucos links secundários aqui” — links, aliases e atalhos simbólicos, como quiser chamá-los.

[ Mais Links ]

A biblioteca do congresso tem algo similar em sua categorização de segunda ordem — “Esse livro é principalmente sobre a Península Balcânica, mas também é sobre arte, ou é principalmente sobre arte, mas também sobre a Península Balcânica”. A maioria das tentativas hierárquicas de subdividir o mundo utilizam algum sistema assim. Então, no início dos anos 90, uma das coisas que o Berners-Lee nos mostrou é que você poderia ter vários links. Você não precisa ter só alguns poucos links, você poderia ter vários deles.

[ Mais Vários Links ]

Foi aqui que o Yahoo entrou na contramão. Eles disseram “Saiam daqui com essa conversa maluca. Uma URL pode apenas aparecer em três lugares. Essa é a regra do Yahoo”. Eles fizeram isso em parte por que eles não queriam receber spam, uma vez que eles estavam fazendo um diretório comercial, então eles colocaram um limite no número de links simbólicos que pudessem interferir em sua visão de mundo. Eles perderam o final dessa progressão, que é, se você tem links o suficiente, você não precisa mais de hierarquia. Não existem estantes. Não existem sistemas de arquivos. Links por si sós são suficientes.

[ Apenas Links (Não há Sistemas de Arquivos) ]

Um motivo pelo qual o Google foi adotado tão rapidamente quando ele apareceu foi porque ele compreendeu que não existem estantes e que não existem sistemas de arquivos. O Google pode decidir o que vai com o que depois de ouvir o usuário, ao invés de tentar prever antecipadamente o que você precisa saber.

Vamos dizer que eu preciso de todas as páginas da web com as palavras “incontrolável” e “Minnesota”. Você não pode perguntar antes a um catalogador para dizer “Bem, essa será uma categoria útil, então deveríamos codificar isso antecipadamente”. Ao invés disso, o que o catalogador dirá é “Incontrolável mais Minnesota! Esqueça, nós não vamos otimizar coisas assim”. Google, por outro lado diz, “Quem se importa? Não iremos dizer ao usuário o que fazer, por que a estrutura de links é mais complexa do que podemos ler, exceto em resposta a uma busca de um usuário”.

Navegação versus busca é um aumento radical na confiança que colocamos na infraestrutura de link, e no grau de poder derivado dessa estrutura de links. Navegar ou “dar uma olhada” diz às pessoas que estão fazendo a ontologia, às pessoas fazendo a categorização, que elas tem a responsabilidade de organizar o mundo antecipadamente. Dado esse requisito, os pontos de vista dos catalogadores necessariamente sobrepõem-se às necessidades dos usuários e às suas visões de mundo. Se você quer algo que ainda não tenha sido categorizado na forma que você pensou, azar o seu.

O paradigma da busca diz o inverso. Diz que ninguém pode dizer a você antecipadamente o que você precisa. A busca diz que, no momento em que você procura, nós faremos nosso melhor para servi-lo baseado nessa estrutura de link, por que nós acreditamos que podemos construir um mundo onde não precisamos de hierarquia para coexistir com a estrutura de link.

Muito das conversas que estão acontecendo agora sobre categorização têm início em uma segunda etapa — “Uma vez que a categorização é uma boa forma de organizar o mundo, nós deveríamos…” Mas o primeiro passo é se fazer a pergunta crítica: a categorização é mesmo uma boa idéia? Nós podemos ver, através do exemplo Yahoo versus Google que existe um número de casos onde você pode extrair valor significante da não categorização. Até o Google adotou o DMOZ, a versão aberta do diretório do Yahoo e depois eles diminuíram sua presença no site porque quase ninguém o usava. Quando as pessoas tiveram o serviço de busca e categorização lado a lado, menos e menos gente estava usando categorização para achar as coisas.

Quando a classificação ontológica funciona bem?

A classificação ontológica funciona bem em alguns lugares, claro. Você precisa de um catálogo de fichas se você estiver trabalhando numa biblioteca física. Você precisa de uma hierarquia para a gestão de um sistema de arquivos. Então o que você quer saber, quando pensa em como organizar qualquer coisa, é se esse tipo de classificação é uma boa estratégia.

Aqui está uma lista parcial de características que ajuda a fazer isso:

Domínio a ser organizado

* Pequeno corpus
* Categorias formais
* Entidades estáveis
* Entidades restritas
* Limites claros

Essas são todas as coisas de domínio-específico que você gostaria que fossem verdades, se você está tentando fazer uma classificação transparente. A tabela periódica de elementos tem todas essas coisas – existem apenas cem elementos ou quase isso; as categorias são simples e deriváveis; prótons não mudam por causa de circunstâncias políticas; apenas elementos podem ser classificados, não moléculas; existem elementos mesclados; e assim por diante. Quanto mais dessas características forem verdade, melhor adequada a ontologia será.

Outra questão chave, além das características do próprio domínio, é “Como são os participantes?”. Aqui estão algumas coisas que, se verdadeiras, ajudam a fazer com que a ontologia seja uma estratégia de classificação que funcione:

Participantes

* Catalogadores experientes
* Fonte autoritativa de julgamento
* Usuários coordenados
* Usuários experientes

DSM-IV, a quarta versão do Manual Diagnóstico e Estatístico de Psiquiatria, é um exemplo clássico de um esquema de classificação que funciona por causa dessas características. DSM IV permite que os psiquiatras de todo os EUA, em teoria, façam o mesmo julgamento sobre uma doença mental, quando apresentada com a mesma lista de sintomas. Existe uma fonte de autoridade para o DSM-IV, a Associação Americana de Psiquiatras. A APA diz quais sintomas levam à psicose. Eles tem tanto catalogadores especialistas quanto usuários especialistas. A quantidade de ‘infraestrutura pessoal’ que está por trás de um sistema de trabalho como o DSM IV é uma grande parte o que faz esse tipo de categorização funcionar.

Essa ‘infraestrutura pessoal’ é muito cara, no entanto. Um dos problemas que os usuários tem com as categorias é que quando estamos fazendo exames cara a cara – descrevemos algo e então questionamos usuários para que adivinhem como descrevemos – os resultados são bastante discrepantes. Usuários tem muitas dificuldades tentando adivinhar como algo que eles querem foi categorizado, a menos que eles tenham sido educados sobre essas categorias também, e quanto maior a base do usuário, mais funcional é a educação desse usuário.

Você também pode inverter essa lista. Você pode dizer “aqui estão algumas características onde a classificação ontológica não funciona bem”:

Domínio
* Amplo corpus
* Sem categorias formais
* Entidades instáveis
* Entidades irrestritas
* Sem limites claros

Participantes
* Usuários sem coordenação
* Usuários amadores
* Catalogadores ingênuos
* Sem autoridade

Se você em um corpus amplo e mal definido, se você tem usuários amadores, se seus catalogadores não são especialistas, se não há ninguém com autoridade para dizer o que está acontecendo, então a ontologia será uma má estratégia.

A lista de fatores que faz com que a ontologia seja uma aplicação ruim é, também, uma descrição quase perfeita da Web – maiores corpus, usuários mais ingênuos, nenhuma autoridade global e assim por diante. Quanto mais você empurra a direção de escala, amplitude, fluidez, flexibilidade, o mais difícil se torna para lidar com o custo de iniciar um sistema de catalogação e o esforço de mantê-lo, para não falar da quantidade de domínio que você deve ter sobre os usuários para que eles desistam de suas próprias visões de mundo em favor da sua.

O motivo de sabermos que as SUVs são um tipo de camionete leve ao invés de um carro, é que o Governo diz que eles são um camionete leve. Isso é categorização vodu, onde a ação no modelo muda o mundo – quando o Governo diz que uma SUV é uma camionete, ela é uma camionete por definição. Muito do apelo de categorização surge deste tipo de vodu, onde as pessoas que fazem a categorização acreditam, mesmo que inconscientemente, que nomear o mundo pode mudá-lo. Infelizmente, a maioria do mundo não está isento da categorização vodu.

A razão pela qual não sabemos se Buffy, A caça vampiros, é ficção científica ou não, por exemplo, é por que ninguém pode dizer definitivamente sim ou não. Em ambientes em que não há autoridade e nenhuma força pode ser aplicada ao usuário, é muito difícil apoiar o estilo vodu de organização. Meramente nomear o mundo não cria nenhuma mudança efetiva, nem no mundo, nem na mente dos potenciais usuários que não entendem o sistema.

Leitura de mentes

Um dos maiores problemas em categorizar as coisas antecipadamente é que isso força os categorizadores a lidarem com dois trabalhos que tem sido historicamente bem difíceis: leitura de mentes e previsão do futuro. Isso força os categorizadores a adivinharem o que seus usuários estão pensando, e fazerem previsões sobre o futuro. O aspecto de leitura de mente aparece em conversas sobre vocabulários controlados. Sempre que é concedida permissão aos usuários para etiquetar coisas, alguém sempre diz “Ei, eu sei! Vamos fazer um tesauro, porque se você etiquetar algo como ‘Mac’ e eu etiquetar ‘Apple’ e alguém mais etiquetar como ‘OSX’, nós todos acabamos procurando pela mesma coisa!” Eles apontam para a perda de sinal sobre o fato que usuários, embora usando diferentes etiquetas, estejam falando sobre a mesma coisa.

O entendimento é que nós tanto podemos e deveríamos ler as mentes das pessoas, que nós podemos entender o que elas querem dizer quando elas usam uma etiqueta em particular, e, entendendo isso, nós podemos começar a restringir essas etiquetas, ou ao menos mapeá-las facilmente uma nas outras.

Isso parece relativamente simples com o exemplo Apple/Mac/OSX, mas quando começamos a expandir a outros grupos de trabalhos relacionados, como filmes, filmagens e cinema, o caso para tesauro se torna muito mais claro. Aprendi isso com o design de Brad Fitzpatrick para o LiveJournal, que permite que o usuário liste seus próprios interesses. LiveJournal não faz absolutamente nenhuma tentativa de reforçar solidariedade ou um tesauro ou um conjunto mínimo de termos, nenhum check-box, nenhum drop-box, apenas texto livre. Algumas pessoas dizem que têm interesse em filmes. Algumas dizem que estão interessadas em filmagens. Algumas pessoas dizem que estão interessadas em cinema.

A primeira reação dos catalogadores a isso é “Meu deus, isso significa que você não estará apresentando as pessoas dos filmes para as pessoas do cinema!” para qual a resposta óbvia é “Bom. As pessoas dos filmes não querem se relacionar com as pessoas do cinema”. Esses termos na verdade codificam coisas diferentes, e a afirmação que restrição de vocabulário melhora o sinal assume que não há sinal na diferença em si, e nenhum valor em proteger o usuário de vários sinônimos.

Quando falamos sobre termos realmente controversos como bicha/gay/homossexual, nesse ponto, toda a perda de sinal está no colapso, não na expansão. “Oh, as pessoas falando sobre ‘políticas públicas GLBT’ e as pessoas falando sobre a ‘agenda homossexual’, eles estão falando na verdade sobre a mesma coisa”. Oh não, não estão. Se você achava que as pessoas dos filmes e do cinema poderiam ter uma briga, espere até você colocar as pessoas dos políticas GLBT e agenda homossexual no mesmo lugar…

Você não pode fazer isso. Você não pode colapsar categorizas sem alguma perda de sinal. O problema é que, uma vez que os catalogadores assumem que sua classificação deveria ter força no mundo, eles subestimam a dificuldade de compreender o que os usuários estão pensando, e eles superestimam a quantidade de usuários que irão concordar, sejam entre si mesmos ou com os catalogadores, sobre a melhor forma de categorização. Eles também subestimam a perda de apagar a diferença de expressão, e eles superestimam a perda da falta de um tesauro.

Previsão do Futuro

O outro grande problema é que prever o futuro pode vir a ser difícil, e ainda qualquer sistema de classificação feito para ser estável por muito tempo coloca o categorizador na posição de previsor do futuro. Leitores atentos serão capazes de notar a diferença entra a frase A e a frase B.

A: “Eu te amo.”

B: “Eu sempre irei te amar.”

Ai da pessoa que profere a frase B quando o que eles quiseram dizer foi a frase A. A frase A é uma afirmação. A frase B é uma previsão. Mas este é o dilema ontológico. Considere as seguintes afirmações:

A: “Este é um livro sobre Dresden.”

B: “Este é um livro sobre Dresden,

e ele fica na categoria ‘Alemanha Oriental.”

Essa segunda frase parece tão óbvia, mas a Alemanha Oriental na verdade tornou-se uma categoria instável. Cidades são reais. Elas são fatos físicos, reais. Países são ficções sociais. É muito mais fácil para um país desaparecer do que uma cidade desaparecer, então quando você está dizendo que a pequena coisa está contida pela coisa grande, você está na verdade misturando radicalmente tipos diferentes de entidades. Nós fingimos que ‘país’ refere-se a uma área física da mesma forma que ‘cidade’ o faz, mas não é verdade, como podemos saber de lugares como a antiga Iugoslávia.

Existe uma categoria de nível máximo, você pode ter visto ela mais cedo no esquema da Biblioteca do Congresso, chamada Antiga União Soviética. O melhor que eles puderam fazer foi apenas adicionar “antiga” em toda aquela zona que eles previamente categorizaram como União Soviética. Não por que eles achassem que isso fosse a verdade sobre o mundo, mas por que eles não tinham staff suficiente para reorganizar todos os livros na estante. Essa é a restrição.

Parte II: O único grupo que pode categorizar tudo é todo mundo

“Meu Deus. Está cheio de links!”

Quando nós re-examinamos a categorização sem assumir as restrições físicas nem de hierarquia em disco ou em hierarquia no mundo físico, nós temos respostas muito diferentes. Digamos que você quer mesclar duas bibliotecas – a minha e a Biblioteca do Congresso. (Você pode dizer que a Biblioteca do Congresso é a da direita, por que eles tem alguns livros a mais que eu).

[ Duas Coleções Categorizadas de Livros ]

Então como fazermos isso? Eu preciso sentar com a Biblioteca do Congresso e dizer, “Bem, no meu mundo, Python in A Nutshell é um trabalho de referência, e eu mantenho todos os meus livros sobre criatividade juntos”. Eu preciso evidenciar a diferença entre o meu esquema de categorização e o deles antes que a Biblioteca do Congresso seja capaz de levar meus livros?

Não, claro que não precisamos fazer nada do tipo. Eles são capazes de levarem meus livros enquanto ignoram minhas categorias, por que todos os meus livros tem ISBN. Eles não estão mesclando num nível categórico. Eles estão mesclando ao nível de item globalmente único. Minhas entidades, meus livros unicamente etiquetados, entram no esquema da Biblioteca do congresso trivialmente. A presença de etiquetas únicas significa que mesclar bibliotecas não requere a mescla de esquemas de categorização.

[ ISBNs Mescladas ]

Agora imagine um mundo onde tudo pode ter um identificador único. Isso deveria ser fácil, uma vez que é o mundo em que atualmente vivemos – a URL nos arranja um modo de criar uma ID globalmente única para o que quer que precisemos apontar. Às vezes os apontadores são diretos, como quando uma URL aponta para os conteúdos de uma Web page. Às vezes são indiretas, quando você usa um link da Amazon para apontar para um livro. Às vezes existem camadas de indireção, como quando você usa uma URI, uma fonte identificadora uniforme, para nomear algo que tem uma localização indeterminada. Mas o esquema básico nos dá modos de criar um identificador único globalmente pra tudo.

E uma vez que você faça isso, qualquer um pode etiquetar esses apontadores, pode etiquetar essas URLs, de modos que os façam mais valorosos, e tudo sem requerir esquemas top-down de organização. E isso — uma explosão da livre forma de etiquetagem de links, seguido por todos os tipos de busca de valor dessas etiquetas — é o que eu acho que está ocorrendo agora.

Grandes mentes não pensam parecido

Este é o del.icio.us, o serviço social de bookmarking (favoritos) de Joshua Shachter. É para pessoas que querem cuidar de suas URLs sozinhos, mas que querem compartilhar globalmente uma visão do que estão fazendo, criando uma visão agregada de todos os favoritos dos usuários, bem como uma visão pessoal para cada usuário.

[ Página Inicial do del.icio.us ]

Como você pode ver aqui, as características de uma entrada no del.icio.us são um link, uma descrição estendida opcional, e um conjunto de tags, que são palavras ou frases que os usuários anexam a um link. Cada usuário que adiciona um link ao sistema pode dar a ele um conjunto de tags – alguns o fazem, outros não. Anexadas a cada link na página inicial estão as tags, o nome do usuário que a colocou, o número de outras pessoas que adicionaram o mesmo link e o tempo.

As tags são simplesmente etiquetas para URLs, selecionadas para ajudar o usuário na recuperação posterior dessas URLs. As tags tem o efeito adicional de agruparem URLs relacionadas. Não há um conjunto fixo de categorias ou escolhas oficialmente aprovadas. Você pode usar palavras, acrônimos, números, o que fizer sentido pra você, sem se preocupar com as necessidades, interesses ou requerimentos de ninguém mais.

A adição de algumas simples etiquetas dificilmente parece tão momentânea, mas a surpresa aqui, bem como geralmente é com a Web, é a surpresa da simplicidade. Tags são importantes principalmente pelas coisas que elas deixam de fora. Por ir além da classificação formal, as tags permitem uma grande quantidade de valor organizacional produzido pelo usuário, a um custo impressionantemente pequeno.

Existe uma comparação útil entre o gopher e a Web, onde o gopher era melhor organizado, melhor mapeado a práticas institucionais existentes, e intrínsecamente inadequado para se trabalhar numa escala de internet. A web, em contraste, foi e é uma completa bagunça, com apenas uma marca de apontador, a URL, e nenhum mecanismo para organização global ou fontes. A web é geralmente notável por duas coisas – a forma que ignorou a maioria das teorias de hipertexto e metadados ricos, e como funciona melhor do que qualquer uma das alternativas propostas. (As estratégias Yahoo/Google que mencionei mais cedo também entram nessas linhas).

Com essas mudanças em andamento, aqui estão algumas das coisas que eu acho que estão aparecendo, como vantagens de sistemas de tags:

Lógica de Mercado – Como nos acostumamos à falta de restrições físicas, enquanto internalizamos o fato de que não existem prateleiras e não existem discos, nós estamos indo em direção à lógica de mercado, onde você lida com motivação individual, mas valor de grupo.

Como o Schachter diz do del.icio.us, “Cada esquema de categorização individual vale menos do que um esquema de categorização profissional. Mas existem vários, vários outros deles”. Se você achar um modo de fazer que a etiquetagem seja valorosa para os indivíduos, você gerará muito mais dados sobre qualquer objeto do que se você pagasse um profissional para etiquetar uma vez apenas. E se você pode encontrar qualquer modo de criar valor de combinar uma miríade de classificações amadoras ao longo do tempo, eles serão mais valorosos do que esquemas de categorizações profissionais, particularmente com relação à robustez e custo de criação.

O outro valor essencial da lógica de mercado é que as diferenças individuais não precisam ser homogenizadas. Busque pela palavra “gay” em quase qualquer categoria de nível alto. Você não irá achá-la, mesmo, como um princípio de organização para um grande grupo de pessoas, essa palavra importe muito. Usuários não participam desse tipo de discussões sobre esquemas tradicionais de categorização, mas com a etiquetagem, qualquer um é livre para usar as palavras que ele ou ela pensa que sejam apropriadas, sem ter de concordar com ninguém mais sobre como algo “deveria” ser etiquetado. A lógica de mercado permite que vários pontos distintos de visão co-existam, por que permite que indivíduos preservem seu ponto de vista, mesmo em face de um desacordo geral.

Usuário e Tempo são Atributos centrais – Isso é absolutamente essencial. A atitude do ontologista do Yahoo e de sua equipe foi — “Nós somos o Yahoo, nós não temos preconceitos. É assim que o mundo funciona. O mundo é organizado em uma dúzia de categorias”.

Aqui, por que você pode derivar ‘isso é quem esse link é foi etiquetado por’ e ‘isso é quando foi etiquetado, você pode começar a fazer inclusão e exclusão acerca de pessoas e tempo, não apenas tags. Você pode começar a fazer agrupamento. Você pode começar a decair. “Deixe-me ver as tags desse grupo de usuários, eu queria ver sobre o que eles estão falando” ou “Me dê todas as tags com essa assinatura, mas qualquer coisa que seja mais velho do que uma semana ou um ano”.

Isso é etiquetagem em grupo – não toda a população e não apenas eu. É como permissões do Unix – agora mesmo temos tags para usuário e mundo, e esta é a base na qual estaremos inventando etiquetas de grupos. Nós vamos começar a ser capazes de fazermos subconjuntos de nossos esquema de categorização. Ao invés de ter categorizações massivas e então categorização especializada, nós teremos um espectro entre elas, baseado no tamanho e feitura de vários grupos de etiquetagem.

Perda de Sinal da Expressão – A perda de sinal em esquemas de categorização tradicionais vem da compressão de coisas em um número restrito de categorias. Com a etiquetagem, quando há perda de sinal, ele vem de pessoas que não tem nada em comum ao falar de determinado assunto. A perda é da multiplicidade de pontos de vista, ao invés de compressão em torno de um único ponto de vista. Mas num mundo onde pontos de vista suficientes podem prover algum tipo de comundade, a perda de sinal agregado cai em escala em sistemas de etiquetagem, enquanto cresce em escala em sistemas com únicos pontos de vista.

A solução para este tipo de perda de sinal é o crescimento. Esquemas bem administrados bem organizados ficam piores com escala, tanto por que os custos em apoiar tais esquemas em largos volumes são proibitivos, e, como notei mais cedo, a escala ao longo do tempo é também um problema sério. Etiquetagem, ao contrário, fica melhor em larga escala. Com uma multiplicidade de pontos de vista a questão não é mais “Está todo mundo etiquetando os links ‘corretamente’”, mas “Está todo mundo etiquetando como eu?”. Ao longo que pelo menos uma pessoa etiquete algo do mesmo modo que você, você achará – usando um tesauro para forçar as etiquetas de todo mundo em uma sincronicidade mais afiada na verdade pioraria o ruído que você conseguiria com seu sinal. Se não existem estantes, então mesmo imaginar que existe um modo certo de organizar as coisas é um erro.

A filtragem é feita Post Hoc – Existe uma analogia aqui com cada jornalista que já olhou a Web e disse “Bem, isso precisa de um editor”. A web tem um editor, e é todo mundo. Num mundo onde publicações são caras, o ato de publicar é também um atestado de qualidade – o filtro vem antes da publicação. Num mundo onde publicação é barato, colocar algo a mostra não diz nada sobre sua qualidade. É o que acontece depois que é publicado o que importa. Se as pessoas não apontam pra ele, outras pessoas não lerão. Mas a idéia que a filtragem seja depois da publicação é incrívelmente forasteira para os jornalistas.

Similarmente, a idéia de que a categorização é feita depois de as coisas serem etiquetadas é incrívelmente estranha para catalogadores. Muito do gasto de sistemas de catalogação existentes está na tentativa de prevenir categorias únicas. Com etiquetagem, o que você diz é “Contanto que várias pessoas estejam etiquetando qualquer link, as tags raras podem ser usadas ou ignoradas, com o gosto do usuário. Nós não precisaremos nem aumentar o custo para prevenir que as pessoas o usem. Nós só ajudaremos outros usuários a ignorá-las se quiserem”.

Novamente, escala vem salvar o sistema de um modo que simplesmente quebraria os esquemas de catalogação tradicionais. A existência de uma etiqueta esquisita ou incomum é um problema se é a única forma que um determinado link possa ser etiquetado, ou se não há outra forma de um usuário evitar esta tag. Uma vez que o link foi etiquetado mais de uma vez, no entanto, usuários podem ver ou ignorar as tags esquisitas como bem querem, e a decisão sobre quais tags a serem usadas surgirão após os links já terem sido etiquetadas, não antes.

Mesclados de URLs, não Categorias – Você não mescla esquemas de etiquetagem no nível de categoria e então vê quais são os conteúdos. Com a idéia de mesclar ISBNs, você mescla conteúdos individuais, por que nós agora temos URLs únicas. Você mescla das URLs, e então tenta derivar algo sobre a categorização a partir daí. Isso permite que mesclagens parciais, incompletas ou propabilísticas que são melhores encaixem-se em ambientes incertos – tais como o mundo real – do que esquemas rígidos de classificação.

Mesclagens são Probabilísticas, não binárias – Mesclagens criam uma sobreposição parcial entre tags, ao invés de definirem tags como sinônimos. Ao invés de dizerem que qualquer tag “é” ou “não é” o mesmo que outra tag, o del.icio.us é capaz de recomendar tags relacionadas dizendo “Várias pessoas que etiquetaram isso como ‘Mac’ também etiquetaram como ‘OSX’”. Mudamos de uma escolha binária entre dizer que duas tags são a mesma ou diferente a opção do diagrama de Venn de “tipo/de alguma forma é/tipo é/sobrepõe neste grau”. Essa é uma mudança realmente profunda.

Distribuições de Tag no del.icio.us

Aqui está algo que demonstra o que quero dizer sobre o fim da categorização binária.

[ Tags por usuário ]

Essa é uma tabela baseada numa pequena amostra de links da página inicial do del.icio.us, tirada durante um intervalo de 2 horas. O eixo X são os 64 usuários que postaram links durante esse período. O eixo Y é o número total dos tipos discretos de tags que esses usuários já usaram em sua história no del.icio.us

A tabela mostra uma grande variedade em estratégias entre os vários usuários. O usuário da extrema esquerda tem um enorme número de tags únicas, quase 600. E então existe esse grupo de pessoas que não são etiquetadores muito ativos mas que tem algumas tags, e claro na direita deles há a cauda longa característica de pessoas que usam bem menos tags do que os etiquetadores ativos. (Uma vez que é só uma imagem de duas horas, existe uma tendência natural sobre usuários frequentes do del.icio.us. Estou tentando conseguir um conjunto mais amplo de informações. Minha opinião é que a cauda vai um pouco mais longe que isso). Mas é assim que a organização se parece quando você a entrega aos usuários — várias estratégias diferentes, cada uma funciona em seu próprio contexto, mas que também pode ser mesclada.

[ Tags de um único usuário ]

Essas são as tags de um único usuário. Daqui, você pode dizer algo sobre essa pessoa — ele ou ela é obviamente um programador de Flash — a tag mais comum aqui é Flash, seguido por um número de outras tags frequentes principalmente relacionadas a programação. Como a página inicial, essa distribuição tem a assinatura orgânica. Especialistas não catalogam assim; especialistas, que aprendem como catalogar produzem etiquetagens bem mais consistentes. Aqui, é o que quer que o usuário pensou que pudesse ajudá-lo a lembrar do link depois.

Você pode ver que há uma tag “to_read” (“para_ler”). Um catalogador profissional olharia pra essa tag horrorizado — “Isso é dependente de contexto e temporário”. Bem, também era a categoria “Alemanha Oriental”. Uma vez que você expande a sua escala de tempo para incluir a vida real da categorização do esquema em si, você reconhece que a distinção entre temporário e permanente é terrivelmente vaga. Não há na verdade uma condição binária de uma tag que não possa sobreviver a qualquer tipo de uma examinação a longo prazo.

[ ‘Assinaturas’ diferentes de tags para diferentes URLs ]

E então existe esse conjunto de gráficos. Isso é pra mim a mais interessante e menos compreendida parte do del.icio.us agora mesmo — essas são duas URLs diferentes e as tags que um grupo inteiro de usuários aplicou a elas. O gráfico embaixo refere-se a um site para download de antigas versões de programas que não são mais distribuídos. Você pode ver aqui que há um amplo consenso comum. 140 pessoas etiquetaram Software. Então, a próxima tag em comum, com apenas 20 ocorrências é Windows e então Velho, e Download, e assim por diante. Para essa URL, há um consenso núcleo — esse link é sobre software — e depois desse pequeno pedaço de comunidade, há uma queda muito brusca das tags.

O gráfico no canto superior direito, em contraste, mostra as tags para uma página detalhando como incorporar pesquisas permanentes no Gmail. Você pode ver as tags — Gmail, Firefox, Search, Javascript, GreaseMonkey — essa é uma distribuição muito mais dispersa, com uma queda muito menor. A visão de consenso é que esse link é sobre mais tipos de coisas do que o link de download de software é, ou, ainda, ocupa mais contextos para os usuários do del.icio.us do que o link de download de software.

Olhando para esse tipo de informação, nós podemos começar a dizer, de URL particulares, que os usuários etiquetando essa URL centralizaram ou não acerca de uma tag núcleo, com seu grau de certeza, e, graças aos moldes temporais, nós podemos até começar a entender como a distribuição de tags de URL muda através do tempo. Foram 5 anos entre espalhar o link e o Google perceber como usar coleções inteiras de links para criar valor adicional. Estamos no início do uso de etiquetas, então nós ainda não temos conjuntos amplos e de longa data de informações para olharmos, mas eles estão sendo construídos rapidamente, e nós estamos começando a descobrir como extrair um novo valor de coleções inteiras de etiquetas.

A Organização torna-se orgânica

Estamos mudando da categorização binária — livros são ou não são entretenimento — para esse mundo probabilístico, onde N% dos usuários pensam que livros são entretenimento. Pode até ser que dentro do Yahoo, tenha existido um grande debate sobre livros serem ou não entretenimento. Mas esse debate não se refletiu de nenhuma forma ou eles decidiram não expôr isso aos usuários. O que aconteceu ao invés disso foi que isso se tornou uma categorização tudo ou nada, “Isso é entretenimento, isso não é”. Nós estamos deixando de lado esse tipo de declaração absoluta, e seguindo na direção de sermos capazes de desenvolver esse tipo de valor observando como as pessoas lidam com isso na prática.

Aparece ultimamente como uma questão filosófica. O mundo faz sentido ou nós fazemos o sentido do mundo? Se você acredita que o mundo faz sentido, então qualquer um que tente fazer sentido do mundo diferentemente de você está lhe apresentando uma situação que precisa ser reconciliada formalmente, por que se você entendê-la errado, você está entendendo o mundo de forma errada.

Se, por outro lado, você acredita que nós fazemos sentido do mundo, se nós estamos, de um bando de diferentes pontos de vista, aplicando algum tipo de sentido ao mundo, então você não precisa privilegiar uma categoria em detrimento de outras. O que você faz ao invés disso é tentar achar modos que o sentido individual possa desenvolver-se para algo que é de valor agregado, mas você faz isso sem um objetivo ontológico. Você faz isso sem um objetivo de explicitamente tentar ou até mesmo combinar alguma visão teoricamente perfeita do mundo.

Criticamente, a semântica aqui está nos usuários, e não no sistema. Esse não é um modo de fazer com que os computadores entendam as coisas. Quando o del.icio.us está me recomendando etiquetas, o sistema não está dizendo “eu sei que o OSX é um sistema operacional. Entretanto, eu posso usar lógica predicada para aparecer com recomendações — usuários usam software, software é usado em sistemas operacionais, OSX é um tipo de sistema operacional — e então dizer ‘Aqui Sr. usuário, você pode gostar destes links”.

O que ele está fazendo ao invés disso é muito mais simples:”vários usuários etiquetando coisas como foobar também estão etiquetando coisas como forbnitz. Eu direi ao usuário que foobar e frobnitz são relacionados”. Cabe ao usuário decidir se aquela recomendação é ou não útil — del.icio.us não faz idéia do que aquela etiqueta significa. A sobreposição da etiqueta está no sistema, mas a semântica está nos usuários. Essa não é uma forma de injetar significado linguístico na máquina.

Tudo é dependente do contexto humano. Isso é o que estamos começando a ver com del.icio.us, com o Flickr, com sistemas que estão permitindo e agregando tags. O benefício notório desses sistemas é que eles não recriam a categorização estruturada e hierárquica que geralmente nos é forçada pelos nossos sistemas físicos. Ao invés disso, estamos lidando com um rompimento significativo — por deixar os usuários etiquetarem URLs e agregarem essas etiquetas, nós seremos capazes de construir sistemas organizacionais alternados, sistemas que, como a Web em si, fazem um trabalho melhor de deixar individuos criarem valor uns para os outros, geralmente sem perceber isso.

Muito Obrigado.

Obrigada a Alicia Cervini pela inestimável ajuda editorial.

Tradução livre: Isadora Garrido. Revisão superficial: Fabiano Caruso.

Original disponível no Clay Shirky’s Writings About the Internet

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s