RLPC: Record Linkage Pre-Cleaning : technische Dokumentation der Routinen : technische Dokumentation der Routinen / Wilfried Ehrenfeld

cbs.date.changed2021-07-27
cbs.date.creation2016-05-23
cbs.picatypeOa
cbs.publication.displayformHalle (Saale) : Leibniz-Institut für Wirtschaftsforschung Halle - IWH, 30.11.2015
dc.contributor.authorEhrenfeld, Wilfried
dc.date.accessioned2025-05-28T21:57:47Z
dc.date.issued2015
dc.description.abstractÜbergeordnetes Ziel des Record-Linkage ist die Zusammenführung verschiedener Datensätze anhand eines eindeutigen Identifizierungsmerkmals. In den uns vorliegenden Fällen handelt es sich primär um Unternehmensdatensätze aus Datenbanken mit Unternehmensmerkmalen (z. B. BvD Amadeus/Dafne), Patentdatensätze (z. B. Patstat oder DPMA) sowie Förderdatensätze (z. B. BMBF Förderkatalog). Diese Datensätze sollen über den Namen der Unternehmen verknüpft werden. Da in der Praxis Unternehmensnamen in verschiedenen Datenbasen uneinheitlich geschrieben werden - beispielsweise die Unternehmensform - ist eine Harmonisierung und Standardisierung notwendig. Die hier beschriebenen Routinen vollziehen das Record-Linkage-Pre-Cleaning (RLPC). Sie dienen der Erzeugung eines Record-Linkage kompatiblen Namens (RLName) aus einem vorgegebenen (Akteurs-)Namen (Name). Dabei werden Sonderzeichen auf ASCIIZeichen zurückgeführt, Unternehmensformen identifiziert, Klammerausdrücke isoliert bzw. abgespalten und schließlich so ein Ausdruck geschaffen, der einen Vergleich mit anderen Namen ermöglicht. Im Anschluss an dieses Pre-Cleaning kann mittels Record-Linkage Systemen die Zusammenführung mehrerer so vorbehandelter Datensätze erfolgen.de
dc.description.abstractThe primary objective of record linkage is the merger of different data sets on the basis of an unique identifier. The cases at hand are mostly company data sets from databanks with company characteristics (e.g. BvD Amadeus/Dafne), patent data sets (e.g. Patstat or DPMA) and funding data sets (e.g. BMBF funding catalog). These data sets shall be merged on the basis of the company names. Due to the fact that company names have varying notations in different databases - for example the corporate structure - a harmonization and standardization is necessary. The routines described here implement the record linkage pre-cleaning (RLPC). They are used to create record linkage compatible names (RLName) from given (actor) names (Name). This includes converting special characters to ASCII characters, identifying corporate structures, isolating and separating bracketed expressions. The result is an expression which allows for a comparison with other names. Following this pre-cleaning, record linkage systems can be used to merge several data sets that have been pretreated in the same way.en
dc.description.noteZusammenfassung in englischer Sprache
dc.format.extent1 Online-Ressource (20 Seiten, 1,71 MB) : Illustrationen
dc.genrebook
dc.identifier.ppn859701328
dc.identifier.urihttps://epflicht.bibliothek.uni-halle.de/handle/123456789/3015
dc.identifier.urnurn:nbn:de:gbv:3:2-54690
dc.identifier.vl-id2414069
dc.language.isoger
dc.publisherLeibniz-Institut für Wirtschaftsforschung Halle - IWH
dc.relation.ispartofseriesIWH technical reports ; 2015, 02 ppn:859700240
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/
dc.subject.ddc004
dc.titleRLPC: Record Linkage Pre-Cleaning : technische Dokumentation der Routinen : technische Dokumentation der Routinen / Wilfried Ehrenfeld
dc.typeBook
dspace.entity.typeMonograph
local.accessrights.itemAnonymous
local.openaccesstrue

Dateien

Originalbündel
Gerade angezeigt 1 - 1 von 1
Lade...
Vorschaubild
Name:
urn_nbn_de_gbv_3_2-54690.pdf
Größe:
1.72 MB
Format:
Adobe Portable Document Format
Beschreibung:
RLPC: Record Linkage Pre-Cleaning
Herunterladen

Sammlungen