simone's IRM blog: december 2006

donderdag 21 december 2006

Start casus

Sinds vorige week maandag is de casus van dit blok begonnen. We hebben deze week een vragenuur gehad en al voorstel van ideeen. De opdracht is op zich wel duidelijk, maar hoe ga je een probleem bij de aandachtspunten oplossen. In deze casus is het de bedoeling dat je 3 problemen uitwerkt in een adviesrapport. Deze casus gaat over portfolio. Dan vooral digitaal. De aandachtspunten waar rekening meegehouden moet worden zijn:

Toegang, autorisatie, beheer en privacybescherming (diverse groepen gebruikers: medestudenten, docenten, examnecommissie, externen bv. stage en afstudeerbedrijven). Hierbij moeten we gaan denken aan wie tot welke documenten toegang kan verkrijgen.
Ontsluiting op basis van formele kenmerken (mogelijkheden voor het gebruik van metadata/XML etc.) en inhoudelijke ontsluiting (bv. op basis van fulltext retrieval). Hierbij moeten we denken aan hoe je de documenten kunt ordenen in je digitaal portfolio (bv. classificatie, thesaurus)
Archivering rijdens de studie, maar ook na de studie i.v.m. show case portfolio's voor visitatie- en accreditaties, voor stagebedrijven en werkveldcommissies (selectie, bewaartermijnen, vernietiging etc.). Hierbij moet gedacht worden aan hoe ik mijn document in een dossier kan bewaren en welke langere tijd van belang blijven en welke documenten kunnen weg.
De wijze waarop producten die het resultaat zijn van samenwerkingsverbanden automatisch in het portfolio terecht komen. Hierbij moet men denken aan selectie van bestanden die later nog eens handig kunnen zijn voor evt. je eigen werk.
De mogelijkheid om plaats- en tijdsonafhankelijk te werken aan het portfolio. Hierbij moet men denken tot men het op een internetsite zet met een wachtwoord en daardoor via iedere computer bestanden kunt toevoegen of weggooien.

Opbouw Archiefplan

We hebben deze week een archiefplan moeten maken. In dit archiefplan was het voor ons in het begin vrijwel onduidelijk wat er precies van ons verwacht werd. Hierover is nu wel meer duidelijkheid gekomen. Ik ga nu de onderdelen geven die in een archiefplan moeten staan en bij sommige onderdelen nog een korte toelichting geven. De onderdelen van een archiefplan:

Oude situatie (analyse documentstroom en informatiestroom)
Gewenste situatie
Uitgangspunten voor de archivering

Archiveringssysteem: nagaaan of document statisch/dynamisch, papier/digitaal. Per afdeling en welke deelarcheiven er zijn.
Archiefbewerking: personaliteit van een document
Documentanalyse
Waardering en selectie: welke documenten en waarom van belang?
Archiefbeheer: kan gecombineerd worden met archiefbewerking
Toegankelijkheid van archieven: hoofdstructuur ontsluiting intern en extern. Deelarchief, hoofdarchief, documenttype.
Soorten archieven en deel archieven: welk documenttype/ welke manier onsloten. Conversie/Migratie. Terugvinden = retrieval

4. ordeningsplan (deelarchieven en ordeningsprincipes)

5. bijlagen (selectielijst en classificatie)

Semantische web

De afbeelding die hierboven staat is een afbeelding met alle lagen van het semantische web. Ik wil deze lagen van onder naar boven even kort uitleggen:

unicode: computertaal
URI: Unique Resource Identifier (een subgroep hiervan is URL)
XML: Extensible Mark-up Language (houdt zich bezig met de structuur van de syntaxis ookwel content)Je moet hierbij aan bepaalde regels voldoen.
Namespace: voor 1 XML bestand met meerdere schema's
XML schema: XML onderverdeelt in schema's
RDF: Resource Description Framework (kennis weergeven) je moet zien dat de kennis van een object via een beschrijving een subject van gemaakt wordt. Bekend voorbeeld RDF taal is dublin core (DC).
RDFS: Resource Description Framework Schema (abstract geschreven, via het schema wordt het duidelijk en specifiek beschreven)
OWL: Ontology Web Language (via XML taal) Hierbij draait het erom dat er relatie's kunnen gelegd en met mekaar verbonden worden.
Reasoning: redenering voor het maken
Proof: Bewijs voor dat je de maker bent
Trust: Geloven wat er geschreven staat

De laatste 3 die hier genoemd zijn, zijn nu nog niet relevant. De belangrijkste onderdelen waar we ons nu mee bezig houden zijn: RDF en XML.

vrijdag 15 december 2006

Voor- en nadelen van natuurlijke & vrije indextalen en gecontroleerde indextalen

Natuurlijke & vrije indextalen

Voordelen:

Niet afhankelijk van de maker
Specifieke termen worden gevonden
Er zijn een aantal ingangen in document
Nieuwe termen direct gebruikt
Goedkoop
Uitwisseling eenvoudig

Nadelen:

Moeilijk zoeken met homoniemen
Intellectuele werk naar zoeker
Grote indexeerdiepte
Moeilijk zoeken met meertalige bestanden
Syntaxisproblemen
Weinig geschikt voor cijfermatige gegevens

Gecontroleerde indextalen

Voordelen:

Makkelijk zoeken door aanwezige structuur
Met cijfers zoeken gaat goed
Geen syntaxisproblemen door samengestelde termen
Homoniemen worden onderscheidt

Nadelen:

Veel tijd kost het om het te maken
Codering is niet voor iedereen begrijpelijk
Geringere indexeerdiepte
Het zoeken is soms niet specifiek genoeg
Duur
Incompabiliteit
Zoeken met vertraging in vocabulair

dinsdag 12 december 2006

XML

eXtensible Markup Language (XML) is een standaard voor het definiëren van formele markup-talen voor de representatie van gestructureerde gegevens in de vorm van platte tekst. Deze representatie is zowel machineleesbaar als leesbaar voor de mens.

Met andere woorden: XML is een bepaalde manier om gegevens gestructureerd vast te leggen. Deze manier is gedefinieerd en mag iedereen gebruiken. Het is ontworpen om zowel door een programma als door een mens leesbaar te zijn. XML is niet alleen geschikt om gegevens in op te slaan maar wordt de laatste tijd ook meer en meer gebruikt om gegevens via het internet te versturen.

De recent populaire Ajax-methodiek maakt van XML gebruik. XML is een vereenvoudigde vorm van SGML, Standard Generalized Markup Language, een heel complexe standaard die gebruikt werd om ingewikkelde documenten vorm te geven.Een eerder aftreksel van SGML is HTML HyperText Markup Language. HTML heeft voor een doorbraak in SGML-achtig vormgegeven tekst gezorgd, maar gegevens die op een HTML-pagina staan zijn voor computers niet als zodanig te herkennen. XML zorgt nu juist voor die herkenbaarheid van gegevens. bron: wikipedia

Web 2.0

Het web 2.0 is bij ons geintroduceerd. Om er kennis over te verkrijgen zal ik eerst het begrip gaan definieren. Web 2.0: ook wel semantisch web genoemd. Het gaat hierbij om het verplaatsen van websites naar een volledig platform. Zo beschouwen sommige mensen het ook als tweede fase van het World Wide Web.

Deze afbeelding laat zien wat voor kenmerken het web 2.0 precies heeft. Boven staan de kenmerken voor de programmas die ermee werken onder staan de kenmerken voor de menselijke gebruiker.

vrijdag 8 december 2006

Metadata

Metadata draait om de content en context van een document. Onder de context verstaan we technische kenmerken en beheersgegevens en onder content inhouds- en formele kenmerken. Ik ga nu per onderdeel de kenmerken apart benoemen: Technische kenmerken:

formaat (pdf, excel, word)

Beheersgegevens:

versiegegevens
machtigingen
autorisatie (lezen, schrijven en wijzigen)
bewaartermijnen (tijd en vernietigen/overhevelen)
opslag (hoe/waar - oorspronkelijke formaat)
workflow

Inhoudskenmerken:

onderwerp
classificatiecode
thesaurustermen
ordeningscode (plaatsingscode)

Formele kenmerken:

Titel
Impressum (auteur, plaats)

Archieven

Een archief bestaat uit deelarchieven, deze deelarchieven kun je ook nog onderverdelen in een deelverzameling. Deze deelverzameling heet een dossier. Een dossier is een verzameling van archiefstukken die betrekking hebben op 1 zaak.

Op een archief kan ook nog een bundel van toepassing zijn. Een bundel wordt gesorteerd op adressanten en serie (jaartal en alfabetisch) is een documentstype bv. factuur.

woensdag 6 december 2006

Inleiding archieven

Het begrip archief wordt meestal gebruikt als aanduiding van de bewaarplaats van belangrijke gegevens die zijn vastgelegd in documentvorm. In tegenstelling tot een bibliotheek is een archief meestal niet vrij toegankelijk. Dit geldt niet voor de archiefdiensten van de overheid, deze zijn in overeenstemming met de archiefwet gratis toegankelijk.

De meeste bedrijven, bestuursinstellingen en organisaties hebben een archief. Ook particulieren hebben soms een persoonlijk archief.

Naast aanduiding van de bewaarplaats kan het begrip archief worden gebruikt ter aanduiding van de totale hoeveelheid documenten die zijn gemaakt of ontvangen door een instelling, persoon of groep personen. Archiefstukken onderscheiden zich van andere vormen van documentaire informatie doordat zij zijn ontstaan als direct gevolg van het taakgericht functioneren van een instelling, persoon of groep personen.

Bron: wikipedia

wiki

We zijn deze week begonnen met een nieuw onderdeel van E-coloboration. We hebben hierbij een wiki gemaakt. Hierbij moesten we verschillende onderdelen uitproberen en erop zetten:

foto's
links
documenten
tekst
goede opmaak van de wikispace

Deze wiki is gemaakt door onze project groep. Er zullen hierop ook verschillende onderdelen van IRM op te zien zijn. Deze wikispace is te bekijken op: http://irm.wikispaces.com/

woordsystemen

We hebben het vorige week bij information storage en retrieval gehad over woordsystemen. Dit is een vervolg op het onderdeel classificatie. Zowel een classificatie als een woordsysteem zijn gecontroleerde indextalen, het verschil is dat woordsystemen voortvloeien uit de natuurlijke taal en classificatie uit de niet-natuurlijke taal. Zo hebben we de volgende verschillende woordsystemen:

vrije systemen (Full text retrieval)
trefwoordsystemen (voor automatisering: moment van vastlegging en toegang gebruiker)
thesaurus (via allerlei termen op een alfabetische lijst invullen)

De thesaurus gaan we nader toelichten. Deze is voor ons erg belangrijk om te kennen. De thesaurus bestaat uit:

USE en UF: dit houdt in dat bij de USE een ander woord wordt aangegeven en je bij USED FOR (synoniemen) dus dezelfde term krijgt met de oorspronkelijke erachter.
De hiërrarchische termen BT en NT: deze geven termen aan die breedt iets over het onderwerp zeggen en welke beperkt iets over het onderwerp zeggen.
Assiociatie RT: relinkte term wordt in verband met het onderwerp gebracht.
Scope Note (SN): toelichtingen
Qualifier: homoniem (woord heeft 1 betekenis)
Identifiers: vrije termen (nieuw woord of in een andere taal)

simone's IRM blog