# Dataformaten

We onderscheiden onze data in functie van data management. Je kan data indelen in een van de vijf categorieën of data-formaten. Een data formaat is dus een fysische representatie (serialisatie) van data (waarden) die meestal geoptimaliseerd is voor efficientie van data opslag of data uitwisseling. De specificatie kan impliciet of expliciet (bv. volgens een officiele standaard) zijn. Dit gaat verder dan enkel computer data maar is ook van toepassing op andere informatie.

  • Observationeel
  • Experimenteel
  • Simulatie
  • Afgeleid of gecompileerd
  • Referentie (Canoniek)

# Observationele data

  • Unieke data, je kan deze data niet opnieuw waarnemen, aanmaken of vervangen
  • De data wordt waargenomen in real-time of in situ

Voorbeeld: Sensormetingen, survey resultaten, afbeeldingen, menselijke waarnemingen

# Experimentele data

  • Data uit een lab, waargenomen in ideale omstandigheden
  • Is perfect repliceerbaar, dit kan wel duur zijn om dit te doen

Voorbeeld: DNA-sequencing, spectroscopie, magnetisch veld informatie

# Simulatie data

  • Data gegenereerd door theorieën of test modellen
  • Het gebruikte model en de metadata vereisen zeer accurate input, de input is belangrijker dan de output

Voorbeeld: Klimaatmodellen, economische modellen

# Afgeleid of gecompileerd

  • Deze data is het afgeleide van data analyse, of afgeleid uit meerdere bronnen
  • De data is reproduceerbaar maar kan kostelijk zijn

Voorbeeld: Text en data mining, database, engineering

# Referentie (Canoniek)

  • Vaste datasets, meestal peer-reviewed, meestal officieel gepubliceerd.

Voorbeeld: Chemische structuren, wetenschappelijke artikelen

# Bestandsformaten

Data bestaat dus in vele vormen, de data kan tekst zijn, maar ook audio, code, software, discipline-specifiek, video, instrumenten…

Om dit allemaal op te slaan op een computer zijn er bestandsformaten ontwikkeld. De rol van deze bestandsformaten is het makkelijk en duurzaam delen en behouden van data. Omdat we zo min mogelijk data willen verliezen zijn er standaarden ontwikkeld. Wanneer men een bestand zal opslaan krijgen we vaak de keuze tussen meerdere compatibele bestanden, hier enkele tips om een gepast formaat te kiezen:

  • ‘non-proprietary’, een open standaard die goed gedocumenteerd is
  • niet geencrypteerd
  • niet gecomprimeerd (lossy)
  • geen wachtwoord bescherming
  • generieke character encoding (UTF-8)

Natuurlijk hangt dit allemaal af van de toepassing en wat je wil doen met dit bestand.

# Aangeraden tekstformaten:

  • Text, Documentation, Scripts: XML, PDF/A, HTML, Plain Text.
  • Still Image: TIFF, JPEG 2000, PNG, JPEG/JFIF, DNG (digital negative), BMP, GIF.
  • Geospatial: Shapefile (SHP, DBF, SHX), GeoTIFF, NetCDF.
  • Graphic Image:
    • raster formats: TIFF, JPEG2000, PNG, JPEG/JFIF, DNG, BMP, GIF.
    • vector formats: Scalable vector graphics, AutoCAD Drawing Interchange Format, Encapsulated Postscripts, Shape files.
    • cartographic: Most complete data, GeoTIFF, GeoPDF, GeoJPEG2000, Shapefile.
  • Audio: WAVE, AIFF, MP3, MXF, FLAC.
  • Video: MOV, MPEG-4, AVI, MXF.
  • Database: XML, CSV, TAB.
© 2023 Arteveldehogeschool Laatst bijgewerkt: 16/9/2021 09:03:42