English
Főoldal

Szövegbányászat

Mivel az orvosi szakértői tudás egy igen jelentős része megtalálható különféle természetes nyelvű szövegekben, úgymint szakcikkekben, kutatási jelentésekben, orvosi témájú könyvekben, ezért e források kiaknázása igen fontos többletinformációt adhat egy kutatási rendszernek.

A szövegbányászat feladatai tehát a következők:
(1) Az adott tárgyterülettel kapcsolatos természetes nyelvű korpusz (szakirodalom-gyűjtemény) építése.
(2) Az egyes szövegek feldolgozása, azaz a releváns fogalmak előfordulásainak felderítése és letárolása.
(3) A fenti lépések során előálló adathalmaz statisztikai elemzése, ezek alapján a fogalmak közti összefüggések felderítése.

Ha a szöveges információk elemzése sikeresen megtörtént, a szolgáltatott eredményeknek számos további felhasználása lehetséges.
(1) Az eredményül kapott tárgyterületi modell önmagában is igen fontos információkat hordozhat: mivel lényegében az irodalomból kiolvasható fogalmi összefüggéseket foglalja össze, képet adhat a jelenleg a témában fennálló elképzelésekről.
(2) Mivel a modellezett fogalmak a “valós” modell fogalmainak feleltethetők meg, felhasználhatók egy későbbi modell kiindulópontjául, mely így a szakirodalomból automatizáltan kiolvasható elvárásokat is képes normatív módon beépíteni a standard vizsgálatok eredményeibe.
(3) A standard vizsgálatokból és a szakirodalom elemzéséből származó eredmények összevetése felfedheti, hogy a jelenlegi vizsgálatok milyen, már korábban elfogadott trendekkel, nézetekkel vannak összhangban, illetve melyekkel kapcsolatban fedhetnek fel eltéréseket, új aspektusokat.

Részletezett módszertan (az első felsorolás pontjai részletezve)

(1) Korpusz építése.
Maga a nyers szövegeket tartalmazó adatbázis számos forrásból származhat, ilyenek lehetnek:
• Szakcikkek és kivonatok.
• Fogalom definíciók.
• Orvosi kórlapok, jelentések.


A korpusz építéséhez tartozik még a releváns fogalmak halmazának meghatározása, illetve az ehhez tartozó kiegészítő információk biztosítása (úgymint különböző alakok, szinonimák), amely alapján meghatározható, hogy mely fogalmak jelennek meg egy adott szövegben.

(2) Előfordulások és relevancia számítása.
Az Abiomics által elsősorban alkalmazott, valószínűségi-statisztikai szövegbányászat során minden egyes szöveges forrásra meg kell határozni, hogy mely fogalmak fordulnak elő benne, illetve, hogy azok mennyire relevánsak az adott szövegre, tekintettel arra (1) hogy az adott szövegben még hány másik fogalom szerepel, illetve (2) hogy az adott fogalom még hány másik szövegben fordul elő.
A fentiek alapján egy numerikus score (lásd pl. tf-idf) számítható, amely egy számszerű mennyiséggel jellemzi az adott fogalom-szöveg páros közti relevanciát. Az összes lehetséges párosra adódó relevancia-táblázat szolgál a további, tényleges valószínűségi modellezésen alapuló vizsgálatok kiindulópontjául.

(2b) Sekély nyelvi elemzés.
Mivel a fenti, tisztán az előfordulásokra alapuló módszer nem képes figyelembe venni a fogalmaknak a szövegen belüli viszonyait (pl. hogyan vannak megemlítve egyazon mondaton belül), ezért szükséges lehet a szövegek nyelvi elemzése is.
Egy ilyen elemzés közvetlenül a fogalom-fogalom párosokon belüli asszociáltságra adhat valamiféle becslést, így ennek az eredményei szintén felhasználhatók a fogalmak relációinak modellszintű vizsgálatánál.

(2c) Mély nyelvi elemzés.
(2d) Szövegek kézi címkézése.

(3) Modellszintű elemzés.
Az előző pont előfeldolgozási lépései nyomán előálló adatok már megfelelőek arra, hogy a korábban már ismertetett Bayes-statisztikai modellszintű elemzést elvégezzük rajtuk.
Az elemzés eredményeként részletes információkhoz juthatunk a tárgyterületi fogalmak közti relevanciaviszonyokról, amely információ, azon túl, hogy a önmagában is értékes lehet a vizsgált területtel kapcsolatban, akár felhasználható is lehet egy későbbi, valós mérési adatokon futó elemzés támogatására.