De eerste keynote werd gehouden door Lu Wei, vice-president van de CSI. Professor Lu sprak over het vermogen van AI om verder te gaan dan het traditionele indexeren van tijdschriftartikelen, waarbij indexers metadata zoals titel, auteur, trefwoorden en onderwerpen identificeren en organiseren.
Grote taalmodellen (Large Language Models; LLM’s) kunnen worden getraind om in plaats van alleen trefwoorden en oppervlakkige patronen ook relaties, concepten en de bedoeling achter taal te begrijpen. Professor Lu benadrukte dat AI bovendien kan bepalen of een thesis of tijdschriftartikel nieuwe vragen, methoden, theorieën, technologieën, conclusies en interdisciplinair materiaal bevat, en het niveau van de ‘innovatie’ en ‘grensverleggendheid’ kan vaststellen. Professor Lu ging niet verder in op de vorm van de output van dit indexeringsproces, of op hoe het zou kunnen worden toegepast op andere gebieden of in andere contexten, zoals het indexeren van boeken.
Historicus Dennis Duncan ging onder andere in op homoniemen. Hij vertelde hoe hij twee decennia geleden een christelijke groep tegenkwam in Londen. Ze lazen een gedeelte uit de Bijbel aan hem voor: ‘Laat de wijze [in het Engels sage] zich niet beroemen op zijn wijsheid, noch de sterke man op zijn kracht, noch de rijke man op zijn rijkdom.’ Maar Duncan had de verwijzing naar hoofdstuk en vers gemist, dus googelde hij het. De zoekmachine gaf niet de verwijzing naar Jeremia 9, maar naar een pagina met recepten voor salie [ook sage in het Engels].
Dat was twintig jaar geleden, maar ook de moderne automatische indexeringssoftware die hij gebruikte om een index te maken voor zijn boek Index, A History of the (2021) kon niet goed met homoniemen (woorden die hetzelfde gespeld worden maar een andere betekenis hebben) overweg. Dit programma maakte bijvoorbeeld een lemma voor ‘Cher’, hoewel het popicoon niet genoemd werd in zijn boek. De menselijke registermaker van het boek – Paula Clarke Bain – begreep wel dat het om Hugo de Sancto Charo [in het Engels Hugh of Saint-Cher] ging, een 13e-eeuwse indexer en bijbelcommentator.
De directeur van de Peking University Library, professor Chen Jianlong, sprak over hoe bibliotheken omgaan met indexeren, catalogiseren en technologie. Nu datasets groter worden, wordt het vinden van informatie binnen documenten net zo belangrijk als het vinden van het document zelf. De Peking University ontwikkelt tools met AIGC (door kunstmatige intelligentie gegenereerde content) om teksten en andere bronnen te analyseren. Het gebruik van AIGC en metadata maakt het mogelijk om inhoud uit diagrammen en audiovisueel materiaal te herkennen, kopteksten te extraheren, citaten te annoteren, vermeldingen te sorteren en dergelijke. Hoewel het meeste werk wordt gedaan met tekstbronnen, ontwikkelt de universiteit ook systemen voor het omzetten van colleges, PowerPoint-bestanden en afbeeldingen naar scripts die vervolgens kunnen worden geanalyseerd en geïndexeerd.
Lin Haiqing is werkzaam bij de East Asian Library van UC Berkeley. Hij hield een keynote over het belang van de keten van bewijs bij het catalogiseren van persoonsnamen. Hij benadrukte de noodzaak van strenge normen om ervoor te zorgen dat persoonsnamen en de bijbehorende informatie correct in databases worden ingevoerd. Met name als het gaat om personen uit het oude China, die drie namen (achternaam, beleefdheidsnaam en bijnaam) door elkaar gebruikten, is dit een grote uitdaging. Soms is extra informatie, zoals beroep of geboortejaar, nodig om personen met dezelfde naam correct te identificeren.
Het Name Authority Cooperative Program (NACO) van de Amerikaanse Library of Congress (LC) is gericht op het verbeteren van de nauwkeurigheid van gegevens over persoonsnamen. Bewijs in de vorm van bijvoorbeeld screenshots is noodzakelijk om de nauwkeurigheid van de database te waarborgen, aangezien websites voortdurend veranderen.
De vicepresident van de CSI, Qiao Xiaodong, sprak over gegevensbeheer in de context van het strategische belang van wetenschap en technologie in China. ‘Moedig het juiste gebruik van wetenschappelijke gegevens aan. Probeer de waarde van die gegevens duidelijk te maken. Als je de waarde van wat je hebt niet weet, kun je het niet goed gebruiken.’
Chinese onderzoekers hebben een schat aan gegevens geproduceerd, zei Qiao, maar het gebrek aan goed beheer daarvan betekent dat deze nog niet efficiënt worden gebruikt. Om dit op te lossen, begonnen Qiao en zijn team in 2007 met het opbouwen van de Chinese onderzoeksdata-index, die metadata verzamelt uit Chinese artikelen die zijn gepubliceerd in internationale tijdschriften. Daarnaast streven ze ernaar de kwaliteit van de gegevens, de manier waarop die worden opgeslagen en de samenwerking tussen de betrokken partijen bij het beheer ervan te verbeteren.
Cookie | Duur | Omschrijving |
---|---|---|
cookielawinfo-checkbox-analytics | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". |
cookielawinfo-checkbox-functional | 11 months | The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". |
cookielawinfo-checkbox-others | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other. |
cookielawinfo-checkbox-performance | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". |
viewed_cookie_policy | 11 months | The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. |