Elektronik Dokümanlardan Otomatik Veri Ayrıştırma (metex) Aracının Geliştirilmesi

Özmert, MuratElektronik Dokümanlardan Otomatik Veri Ayrıştırma (metex) Aracının GeliştirilmesiDeveloping an Automatic Metadata Extraction (metex) System From Electronic DocumentMy University2007Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolComputer Engineering and Computer Science and ControlMy UniversityMy UniversityÇağıltay, Nergiz Ercil2024-07-072024-07-072007enMaster Thesishttps://hdl.handle.net/20.500.14411/4365Günümüzde, şirketler kurumsal faaliyetlerini daha etkin, kolay ve verimli bir şekilde gerçekleştirebilmek amacıyla Kurumsal Kaynak Planlama (ERP) otomasyonu ile çözümlere büyük kaynaklar ayırmakta ve büyük yatırımlar yapmaktadırlar. Bu şekilde kullandıkları teknolojiyi her zaman yükseltmeye çalışmaktadırlar. Ancak şirketler bu sistemlere bu kadar yatırım yaparken çeşitli teknik dokümanlar üzerindeki bilgileri insan gücü kullanarak zahmetli bir biçimde bilgi sistemlerine aktarmaya çalışırlar. Bu durum çeşitli kayıplara yol açmaktadır. Üretime yönelik şirketlerde en çok karşılaşılan ortak problemlerden biri de yüksek volümlü teknik dokümanlardan verilerin hedef sisteme yüklemek amacıyla çıkartılmasında harcanan kayıplardır. İnsan gücü kullanarak ERP sistemine veri girişi, süreçlerin yavaşlamasına ve hata oranının yüsek olmasından dolayı yanlış bilgilerin sisteme aktarılmasına neden olabilmektedir. Bir organizasyon için, bu da verimlilik ve zaman kaybı anlamına gelmektedir. Yüksek hacimli teknik dokümanlardan verilerin bulunup hedef sisteme yüklenmesi amacıyla elde edilmesi, veri giriş operatörleri için oldukça zahmetli bir iş olabilmektedir. Ayrıca, her teknik dokümanın ve alt gruplarının kendine özgü bir yapısının olması, her dokümandan temin edilen verilerin farklılığı ve hedef bilgi sisteminde verilerin farklı nesne gruplarına ait olması da bazı güçlükler oluşturmaktadır. vi Tüm bu konular değerlendirildiğinde, otomatik veri ayrıştırma süreçleri önem kazanmaktadır. Yazılımı tamamlanmış ve kullanıcılarına hizmet vermeye hazır bir bilgi sisteminin veri toplama süreçlerinin mümkün olan en kısa sürede tamamlanması gerekmektedir. (bir baraj göletinin su ile dolmaması halinde elektrik üretilememesi gibi). Bu çalışma bilgi sistemlerini desteklemek amacıyla veri ayrıştırma işlemlerini analiz eden tanımlayıcı bir çalışmadır. Bu çalışma bilgi sistemlerini beslemek amacıyla standart teknik doküman yapısına sahip olan gerçek bir lojistik faaliyet alanında yürütülmüştür. Çalışmanın amacı, güvenilir bir alanda bilgi sistemlerini desteklemede, altyapılarını daha iyi bir şekilde organize etmek isteyenlere rehberlik etmektir. Bu tezde, yüksek volümlü teknik dokümanlardan verileri ayrıştıran ve bunları XML formatına dönüştüren bir yapı sunulmaktadır. Bu kapsamda, geliştirilen sistemin temel yapısı, tasarım/geliştirme aşamaları, sağlanan temel fonksiyonlar ve benzer sistemler özetlenmiştir. Geliştirilen sistemin kazançlarını daha iyi ifade edebilmek için sonuç bölümünde, elle veri giriş ve geliştirilen sistem ile veri giriş süreleri değerlendirilmiş ve karşılaştırılmıştır. Anahtar kelimeler: Veri ayrıştırma, metadata, elektronik doküman, XML dönüşümü, ERP veri girişi.Today, the companies make big investments on Enterprise Resource Planning (ERP) solutions to manage their enterprise activities more effectively, easily and productively. Accordingly, they try to update their information systems. While companies make big investments, they try to retrieve significant data from hard copy documents to their information systems using man-power. These tedious chain of processes cause several losses. One of the most common problems met in the production oriented companies is the time loss due to effort on data extraction from publications/printed documents. Manual data input into ERP software slows down the work processes of the company and may cause entering incorrect data into the system because of high mistyping rate. This causes time and productivity loss in a company. Data retrieval from massive amounts of technical content can be a challenge for data input operators. Moreover, every technical publications and their subgroups having its own structure, the difference of the data extracted on every technical publication and belonging to different object group in the target information system create several challenges. When all these issues are considered, automatic metadata extraction processes gain more importance. Data collection activity should be completed in a short period of time for an information system whose software development phase is completed to begin serving for users as soon as possible (e.g. A dam must be filled with water to produce electricity). iv This study is a descriptive case study which analyze metadata extraction processes to support information systems. This case study is conducted in a real-world logistic domain that has predefined (standard) structural technical documentation to feed its information system. This study aims to guide other studies to better organise their infrastructure on the way of supporting their information system in a reliable domain. In this thesis, a framework that extracts metadata from massive electronic technical documents and transforms into XML, is presented. In this regard, aspects such as the basic structures of developed system, development processes, basic services provided and the similar systems are also elaborated. To better show the gains of the developed system, the durations of the processes in classical(manual) system and the developed system are also evaluated and compared. Keywords: Data Extraction, Metadata, Electronic document, XML transformation, ERP data input.