Subject analysis
Subject analysis is the process of determining the subject of a document. Such an analysis is of course first and foremost a function of the document: Different documents get different subject descriptions in a given library or database. The question is, however, which characteristics of the documents should inform subject analysis? Most documents have a title in which the author has expressed his view of what the subject is. The reuse of titles or rules drawing keywords from titles (such as "first substantive in nominative") is a way of subject analysis that is very "objective" in the sense: loyal to the document, which is the object of subject analysis.
It is commonly recognized within LIS that document titles may be misleading why other parts of the document have to be included in the subject analysis. There is no theoretical limit on how much of a document should be considered or how much time should be spend on subject analysis. Even if the whole document is read carefully may later considerations revise the view of what the most important subjects are, that should be expressed by the indexing. In practice, however, most documents are analyzed almost immediately based on titles and few other cues.
In automated indexing is the terms in the document mostly related to their relative frequency in the whole database. We see that the subject analysis thus consider attributes external to the document itself.
The same should also be the case with manual analysis: It should be considered which concepts are discussed in a document and this should be compared with what other documents in the collection have to contribute about the same concepts. If there are a lot of documents about Danish children but only a few about Spanish children, then should the indexing of a document which contains some information about Spanish children make priority the Spanish children as a subject. In request oriented indexing is the document analyzed based on some ideas of what kind of answers the document might help to answer. The indexing is now a function of both the document and its anticipated use. The former mentioned priority to Spanish children should then only be maintained if it is estimated that this concept will be requested.
The understanding and interpretation of documents is based on the interpretation of different traditions and understandings in the environment and this is what hermeneutics is about.
Subject analysis involves hermeneutical acts and also pragmatic analyses of the goals, values and consequences of:
the knowledge claims put forward in documents and
the consequences of indexing one way or another
Principles of subject analysis is basically founded in epistemological views. This is perhaps most clearly seen in the case of evidence based medicine (EBM), which makes clinical experiments the most important source of knowledge, why the indexing in the MEDLINE database have changed their indexing policy influenced by EBM by assigning descriptors such as "Randomized Controlled Trials ". In scientific information systems are the goals and values connected to the goals and values of science, why criteria of subject analysis is tied to the theory and philosophy of science.
Public libraries have goals and values that are supposed to support democracy and enlightenment. Their goals and values may be different from commercial enterprises. Such goals should be reflected both in collection building and in the subject analysis and subject representation of the documents. It is however much more difficult to say in what specific ways these goals influence the indexing of a particular document. One could say that compared to a commercial goal, the subject analysis in public libraries should not emphasize populist concepts/conceptualizations, but should emphasize conceptualizations with relations to scholarly discourses.
Literature:
Albrechtsen, H. (1993). Subject analysis and indexing: from automated indexing to domain analysis. The Indexer, 18, 219-224.
Chu, C. M., & O_Brien, A. (1993). Subject analysis: the first critical stages in indexing. Journal of Information Science, 19, 439-454.
Hjørland, B. (1992). The concept of "subject" in Information Science. Journal of Documentation, 48(2), 172-200.
Hjørland, B. (1997): Information Seeking
and Subject Representation. An Activity-theoretical approach to Information
Science. Westport & London: Greenwood Press.
ISO (1985). Documentation—Methods for examining documents, determining their subjects and selecting indexing terms. International Organization for Standardization, ISO 5963-1985.
Langridge, D. W. (1989). Subject analysis: principles and procedures. London: Bowker-Saur.
Sauperl, A. (2002). Subject determination during the cataloging process. Lanham, MD: Scarecrow Press.
Shatford, S. (1986). Analyzing the Subject of a Picture: A Theoretical Approach. Cataloging and Classification Quarterly, 6(3), 39-62.
See also: Indexing theory; Literary warrant
Birger Hjørland
Last edited: 11-06-2006
to be edited:
Emneanalyse er den intellektuelle eller automatiserede
proces, hvorved et *dokuments emner analyseres for evt. efterfølgende at blive
udtrykt i form af *emnedata. Begrebet emneanalyse eksisterer også i den *BDI-faglige
litteratur under andre betegnelser. Det berømte "Cranfield Project" (1966)
anvendte udtrykket "content analysis", og samme betegnelse anvendtes i de
ældste bind af "Annual Review of Information Science and Technology". Også
betegnelserne *"informationanalyse" og "aboutness-analyse" ses anvendt.
Betegnelsen emneanalyse (engelse "subject analysis) forekommer dog idag den
almindeligt anerkendte betegnelse.
En teori om emneanalyse forudsætter naturligvis en teori om, hvad *emner er,
hvilket der ikke hersker konsensus om. Langridge (1989) betragter således et
dokuments emner som en indholdsmæssig overensstemmelse mellem et dokument og
nogle preetablerede kategorier af *viden, der karakteriseres "permanent,
inherent characteristics of knowledge".
Det forhold, at Langridge ikke i sin analyse tager hensyn til dokumenternes
potentielle anvendelse, karakteriserer Hjørland (1992) som en manglende
pragmatisk dimension i emneanalysen. Det forhold, at Langridge betragter
videnskategorierne som "permanente, iboende karakteristika ved viden", og
således ikke løbende opdaterer sine kategorier i takt med den videnskabelige
udvikling, karakteriserer Hjørland (1992) som "objektiv idealisme". Ifølge
Hjørland, eksisterer der ikke permanente videnskategorier, kun relativt stabile
vidensformer, der er videnskabelige generaliseringer.
Teorier om automatisk indexering (og systemer baseret på *kunstig intelligens)
vil efter Hjørlands hypotese (1992) ligeledes tendere imod en objektiv
idealisme, fordi de bygger på den antagelse, at der bag dokumentets "overflade"
skjuler sig en bestemmelig og dermed bestemt kategori af viden, som ikke
afhænger af dokumentets potentielle anvendelse, men forholder sig til en
"permanente, iboende træk ved viden".
Andre teorier, f.eks. mange *aboutness-teoretikeres opfattelse og det *kognitive
paradigme tenderer imod at foretage en emneanalyse ved at matche et dokument med
subjektive vidensstrukturer. Almindelig er det således at opfatte emnet som
forfatterens hensigt med sit værk (og således afspejle forfatterens subjektive
vidensstruktur. Denne metode anvendte "den klassiske hermeneutik" og den ses
også anvendt af "det kognitive synspunkt" i informationsvidenskaben). Andre
forskere forsøger at finde nøglen til emnebegrebet og emneanalysen i brugernes
subjektive, individuelle behov og vidensstrukturer.
Ifølge Hjørland (1992) er et dokuments emner dets erkendelsesmæssige
potentialer. Disse potentialer erkendes og beskrives ikke først og fremmest via
en undersøgelse af brugernes individuelle, subjektive interesser, viden og
behov, men derimod ved en *domæneanalyse, der inkluderer en videnskabsteoretisk,
-sociologisk og -historisk analyse af det pågældende vidensdomæne. En
emneanalyse er en fortolkning af et dokuments (eller en informationsentitets)
potentialer i forhold til et givet informationssystems erkendelsesinteresser,
der foretages i en given historisk, kulturel, faglig og pragmatisk kontekst.
Emneanalysen kan være mere eller mindre målrettet eller almen. En fag- eller
opgavespecifik informationstjeneste vil analysere potentialer snævert i relation
til fagets eller virksomhedens behov. F.eks. beskriver databasen Ringdok
dokumenter udfra den farmakologiske industris behov. En almen
informationstjeneste vil tenderer imod en mere generel beskrivelse, f.eks.
beskriver Chemical Abstracts dokumenter mere alment end Ringdok. Den
pragmatiske/økonomiske kontekst spiller en væsentlig rolle i praktisk
emneanalyse. Således beskrives Det kgl. Biblioteks musikalier efter besætning
(antal musikinstrumenter og disses art og kombination). En sådan beskrivelse kan
gøres forholdsvis økonomisk, konsistent og objektivt, men er til gengæld måske
mindre informativ for mange brugere end en egentlig musikalsk analyse ville
være. D.v.s. at princippet om emneanalysen som en fortolkning af et dokuments
potentialer modificeres af pragmatiske faktorer. Denne modificering er ofte så
udpræget, at det kan være svært at se, at der overhovedet er tale om en
fortolkning af et dokuments potentialer. Forbindelsen imellem brugerbehovene
og dokumentanalysen er blevet meget indirekte/middelbar: Brugeren må selv
udfra de anførte emnedata identificere de relevante dokumenter, hvilket
langtfra altid er muligt.
En emneanalyse indebærer en begrebsdannelse vedrørende et dokuments indhold og
potentialer. En begrebsdannelse vedr. f.eks. en artikel om "Watergate" eller
"Termil-sagen" kan naturligvis hæftes op på de konkrete omstændigheder, tider,
personer, steder etc. En sådan begrebsdannelse tenderer imod positivisme. Den
kan være relevant for nogle typer af informationsbehov, især måske
sensationspressens. En anden form for begrebsdannelse kunne måske være
"Konkrete eksempler på etiske problemer i det politiske system" (Evt. blot "Etik
i politik"). En sådan begrebsbestemmelse er ikke positivistisk, men indebærer
en almengørelse, baseret på teoretisk analyse og abstraktion. I praksis er der
ikke noget til hinder for, at samme dokument kan tildeles mange
emnebeskrivelser, såvel "positivistiske" som "almengjorte". De almengjorte
emnebeskrivelser tjener især dyberegående erkendelsesbehov, hvad enten de er af
videnskabelig art eller f.eks. tjener "dybdeborende journalistik".
En emneanalyse kan naturligvis ikke ses uden sammenhæng med den kultur, det
miljø og den kontekst, hvori analysen foretages, herunder de individuelle og
kollektive erkendelsesinteresser, der ligger bag analysen. Men analysens sigte
er ikke at være subjektiv, men mest mulig objektiv (dog ikke
objektivistisk/positivistisk).
I praksis foregår emneanalysen ofte på den måde, at *BDI-personale sidder med et
givent *klassifikationssystem, *tesaurus eller *ir-sprog, som emneanalysen skal
udtrykkes i. Dette ir-sprog kan virke tilbage på emneanalysen, bibliotekarens
verdensbillede kan direkte farves af et bestemt klassifikationssystem. Det
forhold, at ir-sproget virker ind i emneanalysen, kan have såvel positive som
negative effekter. Det har ofte den positive effekt, at emneanalysen ikke
foretages dybere og mere tidsrøvende end det pågældende system kan
udnytte/udtrykke. Et *IR-sprog udgør således i sig selv et
beslutningsstøttesystem til emneanalyse. Den negative effekt kan være, at
ir-sprogets teoretiske opfattelse (der evt. er blevet bibliotekarens
socialiserede verdensbillede) presses ned over dokumentets teoretiske
opfattelse istedet for at resultere i et forsøg på at ajourføre ir-sprogets
opfattelse. Hvis man antager, at emneverdenen kan udtrykkes i et objektivt
system, hvis grundstrukturer på een eller anden måde er apriori i forhold til
den videnskabelige erkendelse, der løbende kommer til udtryk i faglitteraturen,
da gør man sig skyldig i en rationalistisk, "objektiv idealistisk" tænkemåde,
der ikke er faglig adekvat.
Det er vigtigt, at man skelner principielt mellem selve emneanalysen,
fortolkningen af et dokuments potentialer, og den efterfølgende
"oversættelsesproces", hvor dokumentets emne søges udtrykt ved hjælp af et
konkret ir-sprog. Hvis man blander disse to ting sammen - hvad der som sagt er
forståeligt fordi ir-sproget kan spille tilbage på emneanalysen - så kan man
bl.a. ikke analysere og evaluere emneanalyser og ir-sprog uafhængigt af
hinanden, og man kan f.eks. komme til at betragte *klassifikation og *indexering
som fundamentalt forskellige analysemåder og på andre måder få en forfejlet
opfattelse af såvel teoretiske som praktiske problemer. Erfaringen viser iøvrigt
- som også fremhævet af Langridge, 1989, side 6 - at det er emneanalysen, ikke
"oversættelsesproblemerne", der volder de fleste kvaler.
ISO-standard 5963 (1985) "Metoder til at undersøge dokumenter, bestemme deres
emner og vælge index-termer". Ifølge denne består indekseringen af 3 etaber, der
ikke er klart adskilte:
1) Undersøgelse af dokumentet og bestemmelsen af dets emneindhold.
2) Bestemmelse af de vigtigste begreber i emnet
3) Udtrykkelse af begreberne med det givne vokabulars sprogbrug.
Ideelt ses bør dokumentet gennemlæses, men ofte er dette ikke muligt eller
nødvendigt. Indexøren skal dog sikre, at ingen nyttig information overses, og
således aldrig basere en emneanalyse alene på titel og abstracts. *Standarden
rummer en oversigt over de elementer, man skal være særlig opmærksom på,
herunder f.eks. titel, indholdsfortegnelse, forord m.v. - men den nævner ikke,
at f.eks. referencelisten kan indgå i emneanalysen.
Med hensyn til selve bestemmelsen af begreber anbefales en checkliste, der
f.eks. opregner objekt for en handling; et aktivt begreb, d.v.s. en handling,
operation eller proces; hvad der påvirkes af handlingen; agent; instrumenter,
teknikker og metoder for udførelse af handlingen; sted; afhængige og uafhængige
variable; særlig synsvinkel.
Indeksøren behøver ikke anvende alle identificerede begreber i repræsentationen,
valget afhænger af formålet med indekseringen. Valget af begreber skal ske ud
fra et begrebs potentielle værdi som værende et element i dels navngivningen af
dokumentets emne, dels for genfindingsprocessen. Indeksøren bør herunder
a) Vælge de begreber, der anses for passende af en given brugergruppe, idet
indekseringens mål holdes for øje
b) hvis det anses for nødvendigt, ændre både indekseringsværktøjer og metoder
som resultat af feedback i relation til forespørgslerne.
Der bør ikke fastsættes nogen arbitrær grænse for hvor mange indexeringsord og
-fraser, der kan påføres emnebeskrivelsen, idet en sådan grænse forårsager tab
af objektivitet og udelukkelse af potentiel værdifuld information set i relation
til søgeprocessen.
Udvælgelsen af indekseringstermer og -fraser bør ske ud fra viden på området,
vokabularet og dets muligheder og begræsninger.
Det bemærkes, at de foreskrevne retningslinier for emneanalyse er
dokument-centrerede og nærmest forudsætter en "enhedsvidenskabelig"
analysemåde, d.v.s. der gives ikke specifikke oplysninger om at fag er
forskellige og kræver særlige, "domænespecifikke" analyser. F.eks. kunne man for
de samfundsvidenskabelige og humanistiske fag have nævnt, at indexøren bør være
opmærksom på det pågældende dokuments menneske- og samfundsopfattelse /
videnskabsteoretiske orientering, d.v.s. have betonet det særlige
subjekt-objektforholds betydning i disse fag. Det, at man ikke gør det, viser
det betænkelige i at udgive internationale standarder på dette område: ved at
hæfte sig ved helt udvendige forhold i emneanalysen, kommer de let til at give
et falsk indtryk af professionalisme og af almene, objektive kriterier, der ikke
forefindes i standarden.
Litteratur: Ahlers Moeller, Bente: Subject Analysis in the Library. A
Comparative Study. International Classification, 8(1), 1981, side 23-27.
Hjørland, Birger: The Concept of "Subject" in Information Science". Journal of
Documentation, 1992, Vol. 48(2), side 172-200.
Hjørland, Birger: Emneanalyse (side 36-44 i: Emnerepræsentation og
informationssøgning. Bidrag til en teori på kundskabsteoretisk grundlag.
Göteborg: Valfrid. Publiceringsföreningen för inst Bibliotekshögskolan vid
Högskolan i Borås och Centrum för biblioteks- och informationsvetenskap vid
Göteborgs universitet, 1993. 258 sider. (Disputats)).
ISO 5963: Methods for Examining Documents, Determining their Subjects, and
Selecting Indexing Terms. Geneve: International Standard Organisation, 1985. 5
sider.
Langridge, D.W. Subject Analysis: Principles and Procedures. London:
Bowker-Saur, 1989.