InSIS
Office 365
Kontakty
Přihlásit se ...
EN
Projekty VŠE
Seznam projektů
PRECOG: Predicting REsearch COncepts of siGnificance
PRECOG: Predicting REsearch COncepts of siGnificance
Věda a výzkum
Doba řešení:
1. března 2022
-
29. února 2024
Řešitel:
Ing. Lucie Dvořáčková
Pracoviště:
Fakulta informatiky a statistiky
Katedra ekonometrie (4030)
Samostatný řešitel
Poskytovatel:
Ministerstvo školství, mládeže a tělovýchovy
program:
Interní grantová agentura VŠE
Celkový rozpočet:
404 880 CZK
Registrační číslo
F4/16/2022
Číslo zakázky:
IG403022
The main goal of the project is to use embedding techniques in supervised prediction tasks (specifically binary classification) to identify what we call documents and concepts of future significance. We assume that embedding techniques are able to capture these future changes and using information on semantic relationships among words have the potential to identify new significant keywords (concepts) as important predictors of future events not yet observable in the currently available training corpus.
The novel and crucial ingredient of this project is our focus on the notion semantic distance among words in a text. Standard embeddings use as predictors usually first-order relations, such as "a word occurs frequently" or "a word occurs at the beginning of the text". The semantic relationship, or semantic distance, is a second-order relation on pairs of words that should measure whether or not a pair of words often occur in a similar context. Although there exist some formal definitions in literature, we are ready to investigate both the old as well as to design new ones. Then, it can be expected — at least due to some preliminary results in literature — that this second-order relation can serve as a strong predictor of future events, i.e. properties that will become observable in texts that appear in the same corpus in the future, but are not yet available as training data now.
Binary text classification is a type of problem where the goal is to classify new documents into one of two categories based on a set of training data that contains documents whose category is known. Our work focuses specifically on tasks where one particular document may have a different category in different periods, which depends on the nature of the target variable itself. For example, a specific article may be cited very low in 2014 (falls into the category "lowly cited"), but due to various changes during time could come to the for and the next year (2015) may suddenly be cited highly (new category — "highly cited").
The semantic distance approach is surprisingly promising for the prediction of the possible future switch of the paper from the ”low” to the ”high” state; this is the main result of our team’s recent submission to Scientometrics (Beranova et al, 2021), which is now under revision and a starting point for continuing this work within the currently proposed project.
Scientometrics is just an example of an area where our approach has already achieved interesting results; other examples can be found e.g. in material engineering (Tshitoyan et al., 2019).
In addition to determining the future class of a given document, it is possible to focus on specific words (concepts) that had a decisive influence on the class of the entire document. For example, in biomedical articles, we can focus on specific drugs that occur here and examine their relevance in the future. The whole model, therefore, provides two possibilities for interpretation — important future documents and important future concepts.
The whole research consists of four main phases.
1) Vectorization of text data using embedding techniques;
2) Training of the classification model on vectorized data;
3) Prediction of the future document class;
4) Prediction of future relevant concepts.
Projekty řešitele
2022 - 2024: PRECOG: Predicting REsearch COncepts of siGnificance (MŠMT)
Projekty VŠE
Seznam projektů
,
Fakulty a katedry
,
Řešitelé
,
Partneři
,
Poskytovatelé
,
Kontakty
Vyhledávání
Název/autor
Stav ukončení
aktivní projekty
ukončené projekty
Pracoviště
-- všechny --
Fakulta financí a účetnictví
Fakulta mezinárodních vztahů
Fakulta podnikohospodářská
Fakulta informatiky a statistiky
Národohospodářská fakulta
Fakulta managementu v Jindřichově Hradci
Rektorát
Poskytovatel
-- všechny --
Angloamerická nadace (Anglo-AM. Nadace)
Ca' Foscari University, Venice, Italy (CAFOSCARI)
CEIBS ERICEE Research Grant (CEIBS ERICEE)
Centrum pro ekonomický výzkum a doktorské studium (CERGE - EI)
Cesnet (Cesnet)
Calouste Gulbenkian Foundation (CGF)
Centrum pro regionální rozvoj České republiky (CRR)
Česká rozvojová agentura (ČRA)
ČS-americká společnost (ČS-AS)
DAAD (DAAD)
Dům zahraniční spolupráce (DZS)
Educational, Audiovisual and Culture Executive Agency (EACA)
Evropská komise (EK)
Grantová agentura Akademické aliance (GA AA)
Grantová agentura Akademie věd ČR (GA AVČR)
Grantová agentura České republiky (GA ČR)
Interreg DANUBE (Interreg DANUBE)
JM
MacEwan University School of Business (MacEwan)
MF Itálie
Ministerstvo financí (MFČR)
Magistrát hl. m. Prahy (MHLMP)
Ministerstvo kultury České republiky (MK ČR)
Ministerstvo kultury (MKČR)
Ministerstvo pro místní rozvoj (MMR)
Ministerstvo průmyslu a obchodu (MPO)
Ministerstvo práce a sociálních věcí (MPSV)
Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Min. Vnitra (MV ČR)
Ministerstvo zdravotnictví České republiky (MZ ČR)
Ministerstvo zahraničních věcí (MZV)
Ministerstvo životního prostředí (MŽP)
Národní agentura evropských vzdělávacích projektů (NAEP)
NAWA International Academic Partnership Programme (NAWA)
Open budget USA (OB USA)
ostatní (Ostatní)
Plzeňský kraj (Plzeňský kraj)
Smluvní výzkum (smluvní)
Středočeský kraj (Středočeský kraj)
Škoda Auto, a.s. (Škoda Auto)
Technologická agentura České republiky (TA ČR)
Město Trutnov (Trutnov)
Eindhoven University of Technology (TUE)
Organizace OSN pro průmyslový rozvoj (UNIDO)
US Embassy Prague (US Embassy Pha)
Visegrad Fund (VF)
International Visegrad Fund (VISEGRAD FUND)
Vzdělávací nadace Jana Husa (VNJH)
VŠE (VŠE)
Program
-- všechny --
Cesnet - Fond rozvoje
CRR - Cíl EÚS 2014–2020
ČRA - ostatní
DZS - AKTION
EK - 4.RP
EK - 5. RP
EK - 5. RP IST
EK - 6. RP
EK - 7. RP
EK - CEEPUS
EK - COST
EK - EHP
EK - EIT
EK - Erasmus Mundus
EK - Erasmus+
EK - Erasmus+ Jean Monet
EK - Erasmus+ Sport
EK - ERDF
EK - EU-US
EK - Horizon 2020
EK - Horizont Evropa
EK - Chance
EK - INCO-COPERNICUS
EK - Interreg
EK - LPP
EK - MSCA SE
EK - ostatní
EK - Pilot Projects & Preparation Actions
EK - Tempus
MFČR - EHP
MFČR - Švýc-česká spolupráce
MHLMP - OP PA
MHLMP - OP Praha - pól růstu
MKČR - Kulturní aktivity
MKČR - NPO - MK ČR
MKČR - VISK7
MMR - IROP
MMR - Spolupráce ČR-Bavorsko
MPO - NPO
MPO - OP PIK
MPO - OP TAK
MPSV - OP LZZ
MPSV - OP Z+
MŠMT - AKCE/AKTION
MŠMT - CRP
MŠMT - DRP
MŠMT - FRVŠ
MŠMT - IGA VŠE
MŠMT - Informační zdroje pro výzkum a vývoj
MŠMT - INFRA 1
MŠMT - Interexcellence II
MŠMT - Leonardo da Vinci
MŠMT - MŠMT- OPVVV
MŠMT - NPO
MŠMT - OP JAK
MŠMT - OP VaVpI
MŠMT - OP VK
MŠMT - OP VVV
MŠMT - ostatní
MŠMT - Podpora sportovců
MŠMT - Podpora žáků ZŠ a SŠ
MŠMT - Posílení výzkumu na vysokých školách
MŠMT - PPROVŠ
MŠMT - program KONTAKT
MŠMT - program KONTAKT II
MŠMT - Státní výročí 2018
MŠMT - Technická základna VVŠ
MŠMT - UNIS
MV ČR - NPO
MZV -
MZV - Posilování kapacit veř. VŠ v rozvojových zemích
MŽP - OP ŽP
NAWA - SPP
Ostatní - BTE
Plzeňský kraj - OP VK
Plzeňský kraj - Podpora kultury
Středočeský kraj - OP VK
US Embassy Pha - Small Grants
VF - Strategic Grants
VF - Visegrad Grants
VF - Visegrad+ Grants
VŠE - IRS
Rok řešení
-- všechny --
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
Zobrazit
2374