Blog

Searsia: een slimme zoekmachine voor utwente.nl

Posted by Anne Heining in the category Inspiratie

De website www.utwente.nl heeft een nieuwe zoekmachine – ontwikkeld door studenten en onderzoekers van de faculteit Elektrotechniek, Wiskunde en Informatica (EWI). De nieuwe zoekmachine biedt de bezoeker niet alleen resultaten van webpagina’s, maar kijkt veel dieper in andere systemen die voor Google onbereikbaar zijn. En slim is Searsia, zoals de zoekmachine door de onderzoekers is genoemd, ook nog: zij stuurt zelfs ’s nachts zelf woorden op om bij te leren, zodat de website-bezoeker steeds relevantere zoekresultaten krijgt.

Van studentenproject naar grootschalig onderzoek

In 2011 begon en groep studenten van de bacheloropleiding Technische Informatica voor een ontwerpproject de mogelijkheden voor een nieuwe zoekmachine te verkennen. Dit leverde een werkende prototype voor de UT op, waarin al meer dan tien bronnen (vakken uit Osiris, medewerkers uit de telefoongids, etc.) ontsloten werden. De begeleiders van de studenten zetten het werk op gegeven moment voort. Onderzoeker en docent Djoerd Hiemstra: “We begonnen te kijken of wij er op grote schaal iets mee kunnen. We hebben een enorme dataset samengesteld uit meer dan 150 zoekmachines zoals Google, Yahoo, enzovoorts en deze aan onderzoekers beschikbaar gesteld. We gingen zoekopdrachten uitzetten, en steeds weer evalueren welke resultaten we terugkrijgen. Vervolgens keken we hoe we de kwaliteit daarvan konden verbeteren.”

De uitdaging: een zelflerende zoekmachine

In tegenstelling tot zoekmachines als Google wordt de data niet geïndexeerd en lokaal opgeslagen, maar altijd live opgehaald. Dat bespaart ruimte op eigen servers en levert altijd actuele data, maar zorgt wel voor een uitdaging: hoe weet je dat je de juiste data binnen een seconde ophaalt? Dat moet het systeem zelf leren op basis van eerdere ervaringen. En dat zijn niet alleen maar zoekopdrachten van websitebezoekers. Djoerd: “Als het ’s avonds rustig is, stuurt de zoekmachine daarnaast ook zelfstandig willekeurige woorden als zoekopdrachten op en probeert zo in de avonduren zelf nog een beetje bij te leren. De zoekmachine leert zo welke bronnen relevant zijn bij welke zoekopdrachten en in welke volgorde deze het beste gepresenteerd kunnen worden.”

Onderzoeksproject binnen ‘Amerikaanse TNO’

De evaluatie van de zoekmachine-resultaten nam steeds professionelere vormen aan. Op gegeven moment is het onderzoek op de Text REtrieval Conference (TREC) in de VS gepresenteerd. TREC is een conferentie van het Amerikaanse National Institute of Standards and Technology (NIST), vergelijkbaar met TNO in Nederland. In het kader van TREC zijn de zoekresultaten die de 150 zoekmachines opleverden twee jaar lang uitgebreid onderzocht en geëvalueerd. Tijdens het onderzoek hebben ook studenten van de Universiteit van Gent geholpen, duizenden resultaten handmatig te evalueren door deze te beoordelen op relevantie.

Djoerd: “We hebben de dataset voor onderzoek beschikbaar gesteld. Inmiddels hebben bijna 40 onderzoeksgroepen wereldwijd die data gedownload en hiermee onderzoek gedaan. Met de deelnemers zijn we in de VS bij elkaar gekomen om ervaringen uit te wisselen. We hebben van elkaar geleerd wat wel en niet werkt, leren veel van de artikelen die andere groepen hebben geschreven over hun systeem. Met name name de groepen uit China (East China Normal University en de Chinese Academy of Sciences) deden het erg goed. Andere deelnemers waren bijvoorbeeld Carnegie Mellon University in de VS en de Universiteit van Padova (Italie).”

De nieuwe functionaliteiten voor gebruikers

Waar www.utwente.nl in het verleden de Google-zoekmachine gebruikte, en daarmee dezelfde resultaten als www.google.com kon vinden, ontsluit de nieuwe zoekmachine ongeveer 30 extra bronnen die voor Google verborgen zijn of eerder niet in de zoekresultaten op utwente.nl te vinden waren.

Voorbeelden:

  • Telefoongids: toont personen in de telefoongids (bij zoeken op achternaam).
  • Osiris: toont vakken uit de vakkencatalogus in Osiris
  • Gebouwen: zoeken op gebouw levert een directe link naar het gebouw op maps.utwente.nl op, zodat je precies weet hoe het gebouw eruit ziet en waar op de campus het zit
  • Publicaties: resultaten van doc.utwente.nl (publicatie UT-medewerkers) en utwente.nl (afstudeerscripties studenten) worden getoond
  • Social Media: resultaten van de UT-kanalen op Social Media, bijvoorbeeld van Twitter, Facebook, Instragram, YouTube en Vimeo
  • Beeldbank UT: foto’s uit beeldbank.utwente.nl
  • Nieuws en events van utwente.nl: actuele berichten van de UT-website worden in aparte categorien weergegeven
  • UT Nieuws: berichten van utnieuws.nl, het onafhankelijke nieuwsmedium op de UT
  • Vacatures: openstaande vacatures van de UT uit het HR-vacaturesysteem
  • Campuswiki: resultaten van de UT-wiki

Ideeën voor de toekomst

Wat zijn jullie ideeën voor de toekomst, nu Searsia niet meer op een eigen servertje draait maar op UT-servers ingericht is? Djoerd: “Voorlopig gebruiken we studentenprojecten voor het onderzoeken en toevoegen van nieuwe functies: denk aan het tonen van suggesties, spellingcontrole, gerelateerde zoekopdrachten, etc. We willen informatie bieden die voor mensen op de campus relevant is, breder dan je van een zoekmachine gewend bent. Zo zie je sinds afgelopen week ook vertrektijden van bussen als je op bushaltes zoekt. En voor de lange termijn? “We vinden Google fantastisch: Misschien willen we ooit een zoekmachine voor het hele web neerzetten als alternatief voor Google.”

De UT’ers achter Searsia

Djoerd Hiemstra is specialist voor information retrieval bij de faculteit EWI en doet onderzoek naar big data. Samen met een aantal collega’s heeft hij in 2014 de prestigieuze DataGrant van Twitter ontvangen, als enige onderzoekgroep in Europa. Collega Dolf Trieschnigg heeft de UT na een Post Doc periode inmiddels verlaten. Samen hebben zij de spin off Searsia opgericht om hun slimme zoekmachine na een succesvolle test bij de UT mogelijk breder in de markt te zetten. Op de website van Searsia en de onderzoekers vind je technische achtergrondinformatie van het project, dat ook aangedragen is voor het UT programma Living Smart Campus.

Feedback

Je vindt de zoekmachine via search.utwente.nl of geintegreerd op de UT-website We zijn benieuwd naar je feedback! Stuur een mailtje naar d.hiemstra@utwente.nl of neem via Twitter contact op met Djoerd Hiemstra @djoerd (Searsia, Faculteit EWI) en Anne Heining @heining (Marketing & Communicatie UT).

searsia

 

Leave a reply

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.