Duplikatinnhold: Case Study av Crestock.com

Av: Sverre Bech-Sjøthun, May 12, 2007

Det har vært mye snakk om duplikatinnhold og de problemene dette skaper for mange nettsted. Her er et konkret eksempel og mine tiltak for å få bukt med problemet.

Som de fleste sikkert har fått med seg er et av nettstedene jeg arbeider med Crestock Stock Photos, en bildebank som etterhvert begynner å få en ganske anstendig mengde bilder. Rundt 100.000 så langt faktisk. Og de er knallbra.

Så langt har mitt hovedfokus vært å drive trafikk og god, gammeldags PR – arrangere heftige konkurranser og skrevet bloggposter som har gitt dem en ganske anstendig trafikkvekst siden jeg begynte med dem i midten av november i fjor: fra 40.000 unike besøkende per måned til ca 230.000 unike besøkende nå i april.

Ved å kjøre hardt på slike trafikkskapende tiltak har jeg oppnådd både svært mange besøkende via linker fra andre nettsted, og i tillegg har disse linkene resultert i en meget fin økning i søkemotortrafikk – fra 13.800 i november til 110.000 i april:

Nå som nettstedet begynner å få bra med organisk trafikk fant jeg ut det var på tide å se på problemer med duplikatinnhold – og det kan du trygt si det er mer enn nok av.

For å fortelle litt om nettstedets oppbygning først

Hvert bilde har en egen side: /images/[bilde-id]-[bildenavn].aspx. Hvert bilde har tagger som beskriver bildet, og disse er linket til tagsider: /image-keyword/[tag].aspx som lister opp alle bildene som har denne taggen.

Et av de største problemene ligger i at mange av tag-sidene har gjerne 50 til over 100 sider med bilder som har denne taggen i seg, eksempelvis “food“. Hver “arkiv-side” har variabelen “?page=[tall]” i seg.

Om du ser på “arkiv-sidene” ser du fort at alle disse har identisk tittel som hoved-tag siden, og med så forsvinnende lite rent tekstuelt innhold som det er på hver av disse sidene sier det seg selv at problemene med duplikatinnhold og stikkordkannibalisering blir formidable.

Tilsvarende problemer finnes på andre områder på nettstedet også, men jeg tror dette eksempelet illustrerer bra selve kjernen i problematikken.

Ettersom i hvertfall Google og Yahoo nå faktisk støtter dynamiske variabler har jeg lagt inn en blokkering som bør ta seg av dette problemet:

Disallow: /*?page=*

robots.txt

Grunnen til at jeg har blokkert for indeksering av RSS feeds er på grunn av statistikksystemet Unica NetInsight som vi nylig har implementert hvor vi identifiserer nye RSS abonnenter via en unik ID som legges på RSS-feed URL’en.

Hadde jeg tillatt indeksering av disse, ville det generert en ny URL hver gang en søkerobot kom på besøk. En mulig fix på dette kunne selvsagt vært IP delivery (IP basert cloaking), hvor IP’er som identifiseres som en søkemotor får servert de “rene” RSS-feedene, mens normale besøkende får tildelt disse unike ID’ene.

Men desverre er slike avanserte cloaking-løsninger ikke helt gratis, og jeg tror nok kanskje at det ville kostet mer enn det smaker – i hvertfall for øyeblikket. Dette er jo forresten et bra eksempel på hvor cloaking helt klart ikke benyttes som en black hat teknikk, men løser et problem på en lovlig måte.

Det skal bli spennende å se hva som skjer når søkemotorene, og spesielt Google brgynner å reindeksere nettstedet, men tidligere erfaringer, både for megselv og andre har vist trafikkøkninger fra søk fra 100% til 400%…


3 kommentarer

Av Geir , October 18, 2009



Av Sverre Bech-Sjøthun , October 19, 2009





Legg inn en kommentar

Din email adresse vil aldri bli publisert eller misbrukt - Bortsett fra om du legger igjen kommentarspam.
Da blir vi sinte

Ndvendige felt er merket med *

*

*





Du burde følge oss på

RSS Feed Twitter

Mailoppdatering

(dette med spam gidder vi virkelig ikke, så du kan ta det helt med ro)