Subject analysis

Subject analysis is the process of determining the subject of a document. Such an analysis is of course first and foremost a function of the document: Different documents get different subject descriptions in a given library or database. The question is, however, which characteristics of the documents should inform subject analysis? Most documents have a title in which the author has expressed his view of what the subject is. The reuse of titles or rules drawing keywords from titles (such as "first substantive in nominative") is a way of subject analysis that is very "objective" in the sense: loyal to the document, which is the object of subject analysis.

 

It is commonly recognized within LIS that document titles may be misleading why other parts of the document have to be included in the subject analysis. There is no theoretical limit on how much of a document should be considered or how much time should be spend on subject analysis. Even if the whole document is read carefully may later considerations revise the view of what the most important subjects are, that should be expressed by the indexing. In practice, however, most documents are analyzed almost immediately based on titles and few other cues.

 

In automated indexing is the terms in the document mostly related to their relative frequency in the whole database. We see that the subject analysis thus consider attributes external to the document itself.

 

The same should also be the case with manual analysis: It should be considered which concepts are discussed in a document and this should be compared with what other documents in the collection have to contribute about the same concepts. If there are a lot of documents about Danish children but only a few about Spanish children, then should the indexing of a document which contains some information about Spanish children make priority the Spanish children as a subject. In request oriented indexing is the document analyzed based on some ideas of what kind of answers the document might help to answer. The indexing is now a function of both the document and its anticipated use. The former mentioned priority to Spanish children should then only be maintained if it is estimated that this concept will be requested.

 

The understanding and interpretation of documents is based on the interpretation of different traditions and understandings in the environment and this is what hermeneutics is about.

Subject analysis involves hermeneutical acts and also pragmatic analyses of the goals, values and consequences of:

  1. the knowledge claims put forward in documents and

  2. the consequences of indexing one way or another

Principles of subject analysis is basically founded in epistemological views. This is perhaps most clearly seen in the case of evidence based medicine (EBM), which makes clinical experiments the most important source of knowledge, why the indexing in the MEDLINE database have changed their indexing policy influenced by EBM by assigning descriptors such as "Randomized Controlled Trials ". In scientific information systems are the goals and values connected to the goals and values of science, why criteria of subject analysis is tied to the theory and philosophy of science.

 

Public libraries have goals and values that are supposed to support democracy and enlightenment. Their goals and values may be different from commercial enterprises. Such goals should be reflected both in collection building and in the subject analysis and subject representation of the documents. It is however much more difficult to say in what specific ways these goals influence the indexing of a particular document. One could say that compared to a commercial goal, the subject analysis in public libraries should not emphasize populist concepts/conceptualizations, but should emphasize conceptualizations with relations to scholarly discourses.

 

 

 

 

Literature:

 

Albrechtsen, H. (1993). Subject analysis and indexing: from automated indexing to domain analysis. The Indexer, 18, 219-224.

 

Chu, C. M., & O_Brien, A. (1993). Subject analysis: the first critical stages in indexing. Journal of Information Science, 19, 439-454.

 

Hjørland, B. (1992). The concept of "subject" in Information Science. Journal of Documentation, 48(2), 172-200.

 

Hjørland, B. (1997): Information Seeking and Subject Representation. An Activity-theoretical approach to Information Science. Westport & London: Greenwood Press.

 

ISO (1985). Documentation—Methods for examining documents, determining their subjects and selecting indexing terms. International Organization for Standardization, ISO 5963-1985.

 

Langridge, D. W. (1989). Subject analysis: principles and procedures. London: Bowker-Saur.

 

Sauperl, A. (2002). Subject determination during the cataloging process. Lanham, MD: Scarecrow Press.

 

Shatford, S. (1986). Analyzing the Subject of a Picture: A Theoretical Approach. Cataloging and Classification Quarterly, 6(3), 39-62.

 

 

 

See also: Indexing theory;  Literary warrant

 

 

 

 

Birger Hjørland

Last edited: 11-06-2006

HOME

 

 

 

to be edited:

Emneanalyse er den intellektuelle eller automatiserede proces, hvorved et *dokuments emner analyseres for evt. efterfølgende at blive udtrykt i form af *emnedata. Begrebet emneanalyse eksisterer også i den *BDI-faglige litteratur under andre be­tegnelser. Det berømte "Cranfield Project" (1966) anvendte ud­tryk­ket "content analysis", og samme betegnelse anvendtes i de ældste bind af "Annual Review of Information Science and Technology". Også betegnelserne *"infor­mation­­­analyse" og "aboutness-analyse" ses anvendt. Betegnelsen em­ne­analyse (engelse "subject analysis) fore­kommer dog idag den almindeligt anerkendte betegnelse.

En teori om emneanalyse forudsætter naturligvis en teori om, hvad *emner er, hvilket der ikke hersker konsensus om. Langridge (1989) betragter således et dokuments emner som en ind­holdsmæssig overensstemmelse mellem et dokument og nogle preetablerede kategorier af *viden, der karakteriseres "permanent, inherent characteristics of knowledge".

Det forhold, at Langridge ikke i sin analyse tager hensyn til dokumenternes potentielle anvendelse, karakteriserer Hjørland (1992) som en manglende pragmatisk dimension i emneanalysen. Det forhold, at Langridge betragter videnskategorierne som "permanente, iboende karakteristika ved viden", og således ikke løbende opdaterer sine kategorier i takt med den videnskabelige udvikling, karakteriserer Hjørland (1992) som "objektiv idealisme". Ifølge Hjørland, eksisterer der ikke permanente videnskategori­er, kun relativt stabile vidensformer, der er videnskabelige ge­neraliseringer.

Teorier om automatisk indexering (og systemer baseret på *kunstig intelligens) vil efter Hjørlands hypotese (1992) ligeledes tendere imod en objektiv idealisme, fordi de bygger på den antagelse, at der bag dokumentets "overflade" skjuler sig en bestemmelig og dermed bestemt kategori af viden, som ikke afhænger af doku­mentets potentielle anvendelse, men forholder sig til en "permanente, iboende træk ved viden".

Andre teorier, f.eks. mange *aboutness-teoretikeres opfattelse og det *kognitive paradigme tenderer imod at foretage en emneanalyse ved at matche et dokument med subjektive vidensstruk­turer. Almindelig er det således at opfatte emnet som forfatterens hensigt med sit værk (og således afspejle forfatterens subjektive vidensstruktur. Denne metode anvendte "den klassiske hermeneutik" og den ses også anvendt af "det kognitive synspunkt" i informationsvidenskaben). Andre forskere forsøger at finde nøglen til emnebegrebet og emneanalysen i brugernes subjektive, individuelle behov og videns­strukturer.

Ifølge Hjørland (1992) er et dokuments emner dets erkendelsesmæssige potentia­ler. Disse potentialer erkendes og beskrives ikke først og fremmest via en undersøgelse af brugernes individuelle, subjektive interesser, viden og behov, men derimod ved en *domæneanalyse, der inkluderer en videnskabsteoretisk, -sociologisk og -historisk analyse af det pågældende vidensdomæne. En em­ne­analyse er en fortolkning af et dokuments (eller en informationsentitets) potentia­ler i forhold til et givet informationssystems erkendelsesinteresser, der foretages i en given historisk, kulturel, faglig og pragmatisk kontekst.

Emneanalysen kan være mere eller mindre målrettet eller almen. En fag- eller opgavespecifik informationstjeneste vil analysere potentialer snævert i relation til fagets eller virksomhedens behov. F.eks. beskriver databasen Ringdok dokumen­ter udfra den farmakologiske industris behov. En almen informationstjeneste vil tenderer imod en mere generel beskrivelse, f.eks. beskriver Chemical Abstracts dokumenter mere alment end Ringdok. Den pragmatiske/økonomiske kontekst spiller en væsentlig rolle i praktisk emneanalyse. Således beskrives Det kgl. Biblioteks musikalier efter besætning (antal musikinstrumenter og disses art og kombination). En sådan beskrivelse kan gøres forholdsvis økonomisk, konsistent og objektivt, men er til gengæld måske mindre informativ for mange brugere end en egentlig musikalsk analyse ville være. D.v.s. at princippet om em­neanalysen som en fortolkning af et dokuments potentialer modificeres af pragmatiske faktorer. Denne modificering er ofte så udpræget, at det kan være svært at se, at der overhovedet er tale om en fortolkning af et dokuments potentialer. For­bin­del­sen imellem brugerbehovene og dokumentanalysen er blevet meget in­di­rek­te/­mid­del­bar: Brugeren må selv udfra de anførte emnedata identificere de rele­vante doku­menter, hvilket langtfra altid er muligt.

En emneanalyse indebærer en begrebsdannelse vedrørende et dokuments indhold og potentialer. En begrebsdannelse vedr. f.eks. en artikel om "Watergate" eller "Termil-sagen" kan naturligvis hæftes op på de konkrete omstændigheder, tider, personer, steder etc. En sådan begrebsdannelse tenderer imod positivisme. Den kan være relevant for nogle typer af informationsbehov, især måske sensations­pressens. En anden form for begrebsdannelse kunne måske være "Konkrete eksempler på etiske problemer i det politiske system" (Evt. blot "Etik i politik"). En sådan begrebsbe­stemmelse er ikke positi­vistisk, men indebærer en almengørel­se, baseret på teoretisk analyse og abstraktion. I praksis er der ikke noget til hinder for, at samme dokument kan tildeles mange emnebeskrivelser, såvel "positivistiske" som "almengjorte". De almengjorte emnebeskrivelser tjener især dyberegående erkendelsesbehov, hvad enten de er af videnskabelig art eller f.eks. tjener "dybdeborende journalistik".

En emneanalyse kan naturligvis ikke ses uden sammenhæng med den kultur, det miljø og den kontekst, hvori analysen foretages, herunder de individuelle og kollektive erkendelsesinteresser, der ligger bag analysen. Men analysens sigte er ikke at være subjektiv, men mest mulig objektiv (dog ikke objektivistisk/­positivistisk).

I praksis foregår emneanalysen ofte på den måde, at *BDI-personale sidder med et givent *klassifikationssystem, *tesaurus eller *ir-sprog, som emneanalysen skal udtrykkes i. Dette ir-sprog kan virke tilbage på emneanalysen, bibliotekarens verdensbillede kan direkte farves af et bestemt klassifikationssystem. Det forhold, at ir-sproget virker ind i emneanalysen, kan have såvel positive som negative effekter. Det har ofte den positive effekt, at emneanalysen ikke foretages dybere og mere tidsrøvende end det pågældende system kan udnytte/udtrykke. Et *IR-sprog udgør således i sig selv et beslutningsstøttesystem til emneanalyse. Den negative effekt kan være, at ir-sprogets teoretiske opfattelse (der evt. er blevet bi­bliote­karens socialisere­de verdens­billede) presses ned over dokumentets teoretiske opfattelse istedet for at resultere i et forsøg på at ajourføre ir-sprogets opfattelse. Hvis man antager, at emneverdenen kan udtrykkes i et objektivt system, hvis grundstrukturer på een eller anden måde er apriori i forhold til den videnskabelige erkendelse, der løbende kommer til udtryk i faglitteraturen, da gør man sig skyldig i en rationalistisk, "objektiv idealistisk" tænkemåde, der ikke er faglig adekvat.

Det er vigtigt, at man skelner principielt mellem selve emneanalysen, for­tolkningen af et dokuments potentialer, og den efterfølgende "oversættelsespro­ces", hvor dokumentets emne søges udtrykt ved hjælp af et konkret ir-sprog. Hvis man blander disse to ting sammen - hvad der som sagt er forståeligt fordi ir-sproget kan spille tilbage på emneanalysen - så kan man bl.a. ikke analysere og evaluere emneanalyser og ir-sprog uafhængigt af hinanden, og man kan f.eks. komme til at betragte *klassifikation og *indexering som fundamentalt forskellige analysemåder og på andre måder få en forfejlet opfattelse af såvel teoretiske som praktiske problemer. Erfaringen viser iøvrigt - som også fremhævet af Langridge, 1989, side 6 - at det er emneanalysen, ikke "oversættelsesproblemerne", der volder de fleste kvaler.

ISO-standard 5963 (1985) "Metoder til at undersøge dokumenter, bestemme deres emner og vælge index-termer". Ifølge denne består indekseringen af 3 etaber, der ikke er klart adskilte:

1) Undersøgelse af dokumentet og bestemmelsen af dets emneindhold.
2) Bestemmelse af de vigtigste begreber i emnet
3) Udtrykkelse af begreberne med det givne vokabulars sprogbrug.

Ideelt ses bør dokumentet gennemlæses, men ofte er dette ikke muligt eller nødvendigt. Indexøren skal dog sikre, at ingen nyttig information overses, og således aldrig basere en emneanalyse alene på titel og abstracts. *Standarden rummer en oversigt over de elementer, man skal være særlig opmærksom på, herunder f.eks. titel, indholdsfortegnelse, forord m.v. - men den nævner ikke, at f.eks. referen­celisten kan indgå i emneanalysen.

Med hensyn til selve bestemmelsen af begreber anbefales en checkliste, der f.eks. opregner objekt for en handling; et aktivt begreb, d.v.s. en handling, operation eller proces; hvad der påvirkes af handlingen; agent; instrumenter, teknikker og metoder for udførelse af handlingen; sted; afhængige og uafhængige variable; særlig synsvinkel.

Indeksøren behøver ikke anvende alle identificerede begreber i repræsentationen, valget afhænger af formålet med indekseringen. Valget af begreber skal ske ud fra et begrebs potentielle værdi som værende et element i dels navngivningen af dokumentets emne, dels for genfindingspro­cessen. Indeksøren bør herunder

a) Vælge de begreber, der anses for passende af en given brugergruppe, idet indekseringens mål holdes for øje

b) hvis det anses for nødvendigt, ændre både indekseringsværktøjer og metoder som resultat af feedback i relation til forespørgslerne.

Der bør ikke fastsættes nogen arbitrær grænse for hvor mange indexeringsord og -fraser, der kan påføres emnebeskrivelsen, idet en sådan grænse forårsager tab af objektivitet og udelukkelse af potentiel værdifuld information set i relation til søgeprocessen.

Udvælgelsen af indekseringstermer og -fraser bør ske ud fra viden på området, vokabularet og dets muligheder og begræsninger.

Det bemærkes, at de foreskrevne retningslinier for emneanalyse er dokument­-centrerede og nærmest forudsætter en "enhedsvidenskabelig" analysemåde, d.v.s. der gives ikke specifikke oplysninger om at fag er forskellige og kræver særlige, "domænespecifikke" analyser. F.eks. kunne man for de sam­fundsvidenskabelige og humanistiske fag have nævnt, at indexøren bør være opmærksom på det pågældende dokuments menneske- og samfundsopfattelse / videnskabsteoretiske orientering, d.v.s. have betonet det særlige subjekt-objektforholds betydning i disse fag. Det, at man ikke gør det, viser det betænkelige i at udgive internationale standarder på dette område: ved at hæfte sig ved helt udvendige forhold i emneanalysen, kommer de let til at give et falsk indtryk af professionalisme og af almene, objektive kriterier, der ikke forefindes i standarden.

Litteratur: Ahlers Moeller, Bente: Subject Analysis in the Library. A Comparative Study. International Classification, 8(1), 1981, side 23-27.
Hjørland, Birger: The Concept of "Subject" in Information Science". Journal of Documentation, 1992, Vol. 48(2), side 172-200.
Hjørland, Birger: Emneanalyse (side 36-44 i: Emnerepræsentation og informationssøgning. Bidrag til en teori på kundskabsteoretisk grundlag. Göteborg: Valfrid. Publiceringsföreningen för inst Bibliotekshögskolan vid Högskolan i Borås och Centrum för biblioteks- och informationsvetenskap vid Göteborgs universitet, 1993. 258 sider. (Disputats)).
ISO 5963: Methods for Examining Documents, Determining their Subjects, and Selecting Indexing Terms. Geneve: International Standard Organisation, 1985. 5 sider.
Langridge, D.W. Subject Analysis: Principles and Procedures. London: Bowker-Saur, 1989.