Using Geometry in Data Extraction
(Deutscher Text weiter unten.)
FLIE, Form Labelling for Information Extraction, is the title of a recent paper resulting from an industrial collaboration in the field of insurance. The paper was presented virtually in November 2020 at the Future Technologies Conference. The project lasted a year and finished in July 2020 by delivering a prototype of a system for data extraction from Swiss insurance policies. The work was led by Professor Thomas Hanne and involved Professor Ela Pustulka and a Master student, Phillip Gachnang, who was the research assistant on the project.
The project started by writing software to extract data from insurance policies in pdf format and to anonymise it. In the summer of 2019 we visited several brokers in Switzerland, going as far as Lausanne, and used the software to extract data from over 20’000 policies and related documents. The next step consisted in creating data models for various policy types and annotating the data by hand to create a data set for machine learning. We developed FLIE, which is a new feature abstracting page geometry and used the approach we developed in experiments investigating the quality of automated data extraction.
Lessons Learnt
Data acquisition, including writing software for data extraction and anonymisation, required around 30% of project resources. Visiting brokers and our industrial partners allowed us to appreciate the complexities of the insurance brokerage market and study the richness of policies issued in Switzerland. We spent considerable time on understanding the landscape of insurers, policy types and data models. Many Bachelor and Master students (BIT) learned about insurance and helped us with data modelling and annotation. They all appreciated working on a real life problem and contributing to the team effort.
References
- FLIE: Form Labeling for Information Extraction. In: Arai K., Kapoor S., Bhatia R. (eds) Proceedings of the Future Technologies Conference (FTC) 2020, Volume 2. FTC 2020. Advances in Intelligent Systems and Computing, vol 1289. Springer, Cham. https://doi.org/10.1007/978-3-030-63089-8_35
- Text Mining Innovation for Business. In: Dornberger R. (eds) New Trends in Business Information Systems and Technology. Studies in Systems, Decision and Control, vol 294. Springer, Cham. https://doi.org/10.1007/978-3-030-48332-6_4
Wie kann Geometrie bei der Datenextraktion helfen?
Im Juli 2020 hat das IWI ein spannendes Projekt mit einem industriellen Partner abgeschlossen und kürzlich die Ergebnisse auf einer internationalen virtuellen Konferenz präsentiert (Future Technologies Conference 2020). Es ging um die Versicherungsbrache, und im Besonderen um die Policen, aus welchen der Industriepartner alle Informationen automatisch extrahieren möchte.
Professor Thomas Hanne hat das Projekt akquiriert und geleitet. Beteiligt daran waren Professor Ela Pustulka und Phillip Gachnang, der im Masterstudiengang Business Information Systems studiert. Das Projekt hat die Möglichkeiten einer automatisierten Datenextraktion untersucht und eine neue Annotationsform, FLIE (Form Labeling for Information Extraction), entwickelt. Die neue Lösung gruppiert den Text auf einer Versicherungspolice in Zeilen- und Spaltengruppen und fügt deren Nummerierung als neue «Features» hinzu, die weiter im Machine Learning verwendet werden können. Dank dieser neuen Methode ist das Erkennen von relevanten Daten und deren Zuweisung zu den gewünschten Attributen jetzt möglich. Weitere studentische Projekte untersuchen Verbesserungen, die die Qualität der Extraktion erhöhen werden.
Lessons Learnt
Es hat ein Drittel der Projektzeit gebraucht, um an die Daten zu kommen. Eine Softwarelösung zur Datenextraktion aus den gescannten Dokumenten und zu deren Anonymisierung musste zuerst entwickelt und bei den Versicherungsbrokern angewendet werden. Im Sommer 2019 sind wir weit, sogar nach Lausanne gefahren, um die Daten zu bekommen. Mehrere Besuche bei verschiedenen Brokern waren nötig und haben unsere Datensammlung mit über 20’000 Policen befüllt.
Das Know-how im Bereich Versicherung war nicht einfach zu bekommen, da es am Anfang Datenmodelle nur für die Fahrzeugversicherung gab. Andere Versicherungstypen sind von mehreren Studierenden aus den Bachelor- und Masterstudiengängen analysiert worden. Das Projekt war ein grosses Plus für die Studierenden, die sich sehr gerne mit einem aktuellen Problem befasst haben