Erschließung Der Patentdokumente: Wie Das DPMA Die ABBYY FineReader Engine Nutzt
Erschließung Der Patentdokumente: Wie Das DPMA Die ABBYY FineReader Engine Nutzt
Zurück zu den Kundenreferenzen
Government | Document Processing
Das Deutsche Patent- und Markenamt (DPMA) erschließt seine Patentdokumentation als Volltext
Zurück zu den Kundenreferenzen
Das Deutsche Patent- und Markenamt (DPMA) erschließt seine Patentdokumentation als Volltext
Behörden und öffentlicher Sektor | Dokumentenverarbeitung
Über den Kunden
Name | Das Deutsche Patent- und Markenamt (DPMA) |
---|---|
Hauptsitz | München, Deutschland |
Branche | Bundesbehörde |
Produkte und Services | Prüfung von Erfindungen, Vergabe von Patenten, Registrierung von Marken, Verwaltung von Schutzrechten |
Mitarbeiter | 2600 |
Website | www.dpma.de |
Herausforderung
Aufbau eines durchsuchbaren digitalen Archivs aus mehr als 20 Millionen archivierter Dokumente
Lösung
Integration von ABBYY FineReader Engine in das DEPATIS-Recherchesystem
Ergebnis
- Durchsatz von 4.500 Seiten pro Stunde bzw. bis zu 40 Millionen Seiten pro Jahr
- Automatische, intelligente Nachbearbeitung der Daten und Erstellung von strukturierten XML-codierten Textdaten
Anfang der 90ziger Jahre begann das Deutsche Patent- und Markenamt DPMA mit dem Start des Projekts DEPATIS, mit dem die Patentprüfung von reiner „Papierverarbeitung“ auf modernste Technologie umgestellt wurde. Damals war man zufrieden damit, den Prüfern 20 Millionen Patentdokumente als Faksimile am Bildschirm zur Verfügung stellen zu können – auch das bei der verfügbaren Technologie keine leichte Aufgabe. Die „Blättersekunde“ war der Schlüsselbegriff, die Prüfer sollen in weniger als einer Sekunde eine beliebige Seite eines beliebigen Dokuments aus dem riesigen Bestand auf dem Bildschirm haben. Es entstand mit dem System DEPATIS eines der modernsten Recherche- und Archivsysteme überhaupt. Damit können die Patentprüfer des DPMA und – über das Internet – auch die Öffentlichkeit in einem der weltweit umfassendsten Bestände an Patentdokumenten recherchieren.
Herausforderung
Als der Ausbau des Systems DEPATIS zur so genannten Vollausstattung geplant wurde, lebte der Gedanke der Volltexterschließung wieder auf. Technischer Fortschritt und das gesammelte Wissen über die Patentdokumente ließen ein solches Vorhaben machbar erscheinen. Ein kleinerer Bestand an Volltextdaten war bereits vorhanden: die Deutschen Patentschriften wurden bereits seit 1987 als sog. DATIMTEX-Dokumente textcodiert erfasst. Insgesamt waren etwas über 1 Million Dokumente vorhanden, in denen die Prüfer im Volltext recherchieren konnten. Die Problematik einer Patentrecherche liegt aber im Anspruch auf Vollständigkeit. Es müssen alle Stellen in allen verfügbaren Dokumenten gefunden werden, die den zu prüfenden Sachverhalt beschreiben oder mit ihm in engem Zusammenhang stehen. Und das bedeutet, dass für eine sinnvolle Recherche der Dokumentenbestand möglichst vollständig textcodiert zur Verfügung stehen sollte. Es galt also, alle Dokumente im Volltext zu erfassen. Von den inzwischen 30 Millionen im DEPATIS-Archiv vorhandenen Faksimiledokumenten lagen neben über einer Million deutscher Volltexte noch knapp 7 Millionen Zusammenfassungen von japanischen Dokumenten textcodiert vor, dennoch handelte es sich angesichts eines „Restbestandes“ von mehr als 20 Millionen Dokumenten um eine enorme Aufgabe.
Lösung
Umfangreiche Planungen und eine intensive Sondierung möglicher Datenlieferanten musste das DPMA durchführen, bis schließlich im September 2002 das Projekt mit dem einfachen Namen »Vollausstattung – Los 3« gestartet wurde. Nach einer europaweiten Ausschreibung wurde HP auf Grund des wirtschaftlichsten Angebotes vom DPMA mit dem Ausbau des DEPATIS Recherchesystems beauftragt. Schwerpunkt des Projektes war die Erweiterung des im Volltext recherchierbaren Datenbestands von 1,2 Millionen auf rund 12 Millionen Dokumente. Dabei hatte das Amt die Anforderung, dass trotz Vervielfachung der Menge an Volltexten gleich bleibende Antwortzeiten für die Recherche und sogar bessere Antwortzeiten bei den Pflege-Operationen (Prüfstoffpflege) erzielt werden. Die Aufgabe wurde von HP in mehreren Schritten gemeistert.
Speicherung der Daten im XML-Format
Zum ersten wurde für die Speicherung der textcodierten Dokumente XML als einheitliches, zukunftsweisendes Datenformat festgelegt, und die entsprechenden Umstellungen im Archivsystem vorgenommen. Insbesondere mussten die vorhandenen Volltext-Daten in das neue Format konvertiert werden, und es mussten die Datenimport und -exportverfahren angepasst werden, um die laufende Übernahme der neuen Dokumente im Volltext sicher zu stellen. Im Rahmen dieser Umstellungen wurde auch die Internet-Schnittstelle für den Download der Daten durch die Öffentlichkeit um eine XML-Schnittstelle erweitert.
Erkennung der Dokumente mit der OCR Software ABBYY FineReader Engine
Danach wurde nach der passenden OCR Software zur Erkennung der Dokumente gesucht. Ulrich Merz, Projektmanager von HP Services – Consulting & Integration, sagt über die Auswahl der OCR Engine: „In einer mehrwöchigen Evaluierungsphase wurden verschiedene Desktop-Produkte geprüft. Entscheidungskriterien waren die Erkennungsgenauigkeit, die Erkennungsgeschwindigkeit, die Sprachunterstützung und vor allem das Vorhandensein einer Programmierschnittstelle zur Einbindung in ein automatisiertes Verfahren. Geprüft wurden die Produkte gegen eine Auswahl von repräsentativen Patentdokumenten der vergangenen 100 Jahre. In diesen Tests hat uns FineReader Engine von ABBYY am meisten überzeugt.“
Auf der Basis des Produkts FineReader der Firma ABBYY, kombiniert mit einer automatischen, intelligenten Nachbearbeitung der Ergebnisse wurde eine Produktion von Volltexten aus den vorhandenen Faxdokumenten aufgebaut. Das Verfahren weist eine sehr hohe Ergebnisqualität auf, so gibt es z.B. die automatische Erkennung und geeignete XML-Präsentation von Mehrspaltigkeit, Tabellen, bestimmten Textabschnitten („Subdokumente“) u. a. mehr. Nicht relevante Textbestandteile wie z.B. Kopf-/Fußzeilen, Aufdrucke/Stempel und Ähnliches werden ausgesondert.
Herausforderungen gemeinsam meistern - wie kann ABBYY Sie unterstützen?
Ergebnis
Das OCR-Verfahren ist in einer modernen Mehrschichtarchitektur implementiert. Zum Einsatz kommen zwei redundant ausgelegte HP Alphaserver DS20 mit BEA-Weblogic-Applicationservern und derzeit 7 HP Proliant Server für die eigentliche OCR-Wandlung. Dadurch wird ein Durchsatz von 4.500 Seiten pro Stunde bzw. bis zu 40 Millionen Seiten pro Jahr erreicht. Die gewählte Architektur ist einfach durch weitere OCR-Server skalierbar. Das OCR-Verfahren realisiert – neben der eigentlichen Texterkennung – eine automatische, intelligente Nachbearbeitung der Daten und erzeugt so die strukturierten, XML-codierten Textdaten.
Bis Juni 2005 wird die Umwandlung von ca. 3 Millionen deutschen Patentdokumenten abgeschlossen sein. Anschließend werden weitere Dokumente weiterer Länder gewandelt. Der Volltextbestand im System DEPATIS wächst rasant. Das „Einfüttern“ der Daten erfolgt ohne Unterbrechungen des DEPATIS-Betriebs, die durch OCR erzeugten Daten stehen sofort den Anwendern zur Verfügung. Es gilt, über 20 Millionen Dokumente aus verschiedensten Ländern als Volltext in das System einzubringen. Das OCR-Verfahren wird für alle Bereiche angewendet, in denen keine Volltextdaten aus anderen Quellen in entsprechender Qualität verfügbar sind. Ausgenommen werden nur wenige Länder, z.B. Länder, bei denen eine Volltextrecherche nicht zur Anwendung käme, weil kein Rechercheur die Sprache ausreichend beherrscht. Von den 4,2 Millionen Deutschen Patentdokumenten lagen zu Beginn der Umwandlung bereits 1,2 Millionen als Volltext vor. Die Komplettierung des Volltextbestandes der deutschen Dokumente wird bis Juni 2005 abgeschlossen sein.
Like, share or repost
Teilen True ? : “”
Sind Sie bereit, mit einem Experten zu sprechen?
Wir würden Sie gerne auf Ihrem Weg zur Automatisierung unterstützen.
Also read:
- [New] 8 FREE Online Instagram Reels Downloaders That Will Save Your Day
- [Updated] In 2024, Instant Success with PC and Mac Videos on TikTok
- 「容量逼迫スマホを改善:動作速度アップとフリーズ解消の方法」
- Advanced Tips for Smooth Transitions and Effects in GoPro Studio for 2024
- Can't Access Your iPhone? A Comprehensive Tutorial on Securely Erasing the Device
- Come Velocemente Converti I File MKV in MP4 Senza Perdere Qualità - Metodo Facile Da Capire
- DVDへの書き込み方法解析 - Windows 11で完全な手引き
- Exploring the Most Exceptional Sapphire Options for Your Bride's Handcrafted Band - Top Picks !
- In 2024, Progressive Array of Chat-Initiators for Attracting Podcast Audience
- Live Streaming with ManyCam: Top Virtual Camera Software Solutions
- Maximizing Storage: The Ultimate Guide to File Deleting in Win11
- Modifying Children's Privacy Settings on Messenger Kids
- Test De Rip DVD : Une Analyse Complet Entre WinX DVD Ripper Et HandBrake Pour Le Gratuitmeilleur Echeclibrateur Vidéo
- Understanding Video Frame Rates - Different Types and Distinguishing VFR Vs. CFR
- Wie Man Kopierschutz Bei DVDs Für Windows/Mac Entfernt – Lösungen Von WinXDVD
- Title: Erschließung Der Patentdokumente: Wie Das DPMA Die ABBYY FineReader Engine Nutzt
- Author: Joseph
- Created at : 2024-09-30 19:35:51
- Updated at : 2024-10-05 17:27:39
- Link: https://solve-helper.techidaily.com/erschliessung-der-patentdokumente-wie-das-dpma-die-abbyy-finereader-engine-nutzt/
- License: This work is licensed under CC BY-NC-SA 4.0.