Mikrodátová infraštruktúra v českých informačných systémoch výskumu a vývoja

Zo seminárov a konferencií

Abstrakt: Príspevok obsahuje charakteristiky výsledných dát o
výsledkoch, ktoré sú v českom informačnom systéme výskumu a vývoja, a procesy ich
zhromažďovania a spracovania. Dáta, použité ako báza pre hodnotenie efektívnosti
výskumu a vývoja, sú evidované každoročne od roku 2005. Mikrodáta o výsledkoch v
súčasnosti obsahujú 640 000 záznamov výsledkov výskumu a vývoja v štyroch
kategóriách. Hodnotenie vedy a výskumu je založené na atribútoch mikrodát
výsledkov.

Uvádzame charakteristiky výsledných dát o výsledkoch, ktoré
sú v českom informačnom systéme výskumu a vývoja, a procesy ich zhromažďovania a
spracovania. Dáta použité ako báza na hodnotenie efektívnosti výskumu a vývoja sú
od roku 2005 až doteraz.

1.   Úvod

Informačný systém výskumu a vývoja Českej republiky (v
češtine: „Informační systém výzkumu a vývoje“ – IS VaV) je celoštátny IS
VaV. Pri financovaní  výskumu má v Českej republike významnú úlohu
štát. Český CRIS dokumentuje celý proces výskumu, od strategického plánovania
financovania až po výsledky. Riadi ho Rada pre výskum a vývoj [1].

V príspevku v krátkosti predstavíme IS VaV, potom budeme venovať
pozornosť mikrodátam výsledkov, ich štruktúre a spracovaniu v informačnom systéme.
Príspevok sa venuje   aj o využitiu mikrodát pri hodnotení výskumu a
vývoja [4].

2.   Český informačný systém výskumu a vývoja
(IS VaV)

Existencia a základné úlohy IS VaV sú zakotvené v zákone č.
130/2002 Sb. O podpore výskumu a vývoja z verejných financií. Ďalej je rozpracovaný
v nariadení vlády ČR.

IS VaV má tieto základné ciele:

  1. Podporiť Radu pre výskum a vývoj pri príprave a prerokovaní
    návrhu štátneho rozpočtu pre VaV.
  2. Šíriť informácie o verejnej súťaži, súčasnom výskume a
    predchádzajúcom výskume s uvedením výsledkov.
  3. Poskytnúť vstupné údaje na hodnotenie efektívnosti VaV.

Vstup údajov je povinný. Konkrétne je nariadené, že:

  1. každý výskum, ktorý je čo len čiastočne financovaný zo
    štátneho rozpočtu ČR, je zaznamenaný v IS VaV;
  2. skôr než poskytovateľ štátneho finančného príspevku
    sprístupní príspevok pre výskumnú inštitúciu, musí byť súbor aktuálnych údajov
    úspešne predložený do českého IS VaV;
  3. každý výskum označený ako úspešne dokončený musí
    predložiť výsledky – publikácie, patenty, technológie atď.

Okrem toho hodnotenie efektívnosti výskumu a vývoja, ktoré sa
robí každoročne od r. 2005, poskytuje výskumným organizáciám priamu motiváciu na
predloženie výsledkov.

IS VaV sleduje tieto ciele:

  1. Návrhy štátneho rozpočtu pre program VaV.
  2. Podporné schémy V a V (programy financovania).
  3. Výzvy na predloženie projektov – verejné súťaže (VES).
  4. Vedeckovýskumné projekty (CEP) – od r. 1994 je 30 000.
  5. Plány inštitúcií v oblasti  vedy a výskumu (forma podpory
    VaV v inštitúcii) – CEZ, 890 od r. 1998
  6. Výsledky – RIV. Podrobnejšie vysvetlenie poskytneme v ďalšej
    časti.

Nepriamo zhromažďuje aj informácie o:

  1. organizáciách, ktoré sú aktívne v oblasti VaV,
  2. vedeckovýskumných pracovníkoch.

Podrobnejšie informácie o českom IS VaV sú uvedené v [2].
Údaje sú uvedené na verejnom rozhraní informačného systému [3].

3.   Mikrodáta o výsledkoch

Výsledky boli zbierané v RIV od r. 1998. Údaje obsahujú
výsledky štátom financovaného výskumu v Českej republike. Teraz, v apríli 2009, je
v nich 640 000 záznamov výsledkov, ktoré obsahujú informácie o približne 490 000
výsledkoch.

Typy výsledkov a ich atribúty

Sú štyri typy výsledkov:

  • publikácie,
  • patenty,
  • produkty,
  • iné.

Publikácie tvoria väčšinu výsledkov.

Údaje o výsledkoch sa zbierajú vo forme záznamu o výsledku.
Tieto záznamy zahŕňajú nasledujúce položky:

Základné údaje o každom výsledku (bez ohľadu na typ
výsledku):

  • názov viacjazyčný: čeština, angličtina a pôvodný jazyk
    dokumentu),
  • abstrakt/krátky opis (tiež viacjazyčný),
  • jazyk,
  • rok realizácie (pri publikáciách rok vydania),
  • klasifikácia oblasti,
  • kľúčové slová.

Typovo špecifické dáta o každom výsledku:

  • pre publikácie:
    • pre články v časopisoch:
      • názov časopisu,
      • ISSN časopisu,
      • ročník a číslo časopisu,
      • rozsah strany, počet strán;
    • pre monografie:
      • ISBN,
      • vydavateľ,
      • počet strán;
    • pre kapitoly kníh:
      • názov knihy,
      • ISBN knihy,
      • vydavateľ knihy,
      • rozsah strany, počet strán;
    • pre články v zborníku z konferencie:
      • názov zborníka,
      • ISBN alebo ISSN zborníka,
      • vydavateľ zborníka,
      • rozsah strany, počet strán,
      • dátum začatia a skončenia konferencie,
      • miesto konania konferencie;
         
  • pre patenty:
    • vydavateľ patentu,
    • číslo patentu,
    • deň registrácie,
    • deň prijatia,
    • majiteľ patentu,
    • geografická oblasť, ktorú patent pokrýva;
       
  • pre produkty:
    • typ produktu,
    • vlastnosti produktu,
    • vlastník produktu.

Organizácia, ktorá výsledky dosiahla (predkladajúca
organizácia);
Zoznam autorov dosiahnutých výsledkov – autori, ktorí sú členmi predkladajúcej
organizácie, sú uvedení podrobnejšie než ostatní;
Zoznam vedeckovýskumných činností (projekty VaV, výskumné plány inštitúcie,
projekty Rámcového programu, projekty štrukturálnych fondov, ďalšie aktivity v
oblasti VaV), ktoré prispeli k dosiahnutým výsledkom;
Proces zbierania metadát (poskytovateľ štátneho finančného príspevku, ktorý dodal
záznam o výsledku, kampaň zbierania dát, balík dát, ktorý obsahoval záznam o
výsledku).

Záznamy o výsledkoch sa objavujú na úrovni výskumných
inštitúcií (univerzity, výskumné inštitúty, organizácie z oblasti kultúrneho
dedičstva, podniky). Na základe zoznamu výskumných aktivít sa záznam postúpi
jednému alebo viacerým poskytovateľom štátneho finančného príspevku. Ich úlohou
je overiť záznam o výsledkoch a potvrdiť dôležitosť jeho spojenia s
vedeckovýskumnými aktivitami, ktoré poskytovateľ financoval. Poskytovatelia štátneho
príspevku potom poskytnú overené údaje Rade pre VaV, ktorá ich zaradí do centrálnej
databázy.

Vyčistenie dát o výsledkoch

Je možné, že viaceré organizácie poskytujú záznamy o tom
istom výsledku
. Je tiež možné, že je viac záznamov o tom istom výsledku z
jednej predkladajúcej organizácie: záznamy sa môžu zbierať v rôznych kampaniach
zbierania výsledkov, alebo ich poslali rôzni poskytovatelia finančného príspevku.
Takáto situácia vzniká priam zákonite.

Používatelia však očakávajú, že každý výsledok sa uvádza,
počíta alebo sa mu prideľujú body len ako celku. To vedie k požiadavke porovnávať
záznamy, ktoré sa vzťahujú k tomu istému výsledku.

Aby sa vyhovelo tejto požiadavke, IS VaV podniká tieto kroky:

  1. Úradné záznamy sa používajú na zvýšenie kvality údajov
    poskytovaných v jednotlivých záznamoch.
  2. Na báze atribútov zvýšenej kvality sa identifikujú výskyty toho
    istého výsledku v rôznych záznamoch výsledkov.
  3. Pre niekoľko základných atribútov sú vytvorené spoločné
    hodnoty.

Úradné záznamy tvoria cenný nástroj zvyšovania kvality
kombinovaných údajov. Pomáhajú vyriešiť problém, ako je nejednotná forma
vydavateľa alebo odkazov na názov v atribútoch voľného textu.2

Sú užitočné aj pri riešení otázok odkazových údajov, ako je
napr. zlý výber dekódovania písmena a pod.

Môžeme identifikovať výskyt toho istého výsledku v rôznych
záznamoch výsledkov na báze hodnôt určitých atribútov, ktoré tvoria sémantický
kľúč
výsledku. Do týchto  atribútov patrí názov výsledku a typ
výsledku. Pri type výsledku musíme brať do úvahy vývoj klasifikačnej schémy počas
kampane zbierania údajov. Suma identifikujúca hodnotu sémantického kľúča sa
používa ako identifikátor výsledku. Zostavíme tiež spoločné hodnoty niekoľkých
základných atribútov výsledku. Patrí sem spoločný názov, spoločný typ a
spoločný rok vydania/realizácie. Vyberie sa jedna hodnota z dôležitých záznamov
výsledkov. Sú aj novostanovené atribúty, ako je séria organizácií, ktoré poskytli
výsledky série poskytovateľov štátneho príspevku.

V tomto štádiu sa vo výsledku autorských dát ešte nič
nezlaďuje.

Použitie  mikrodát pri hodnotení VaV

Hodnotenie výsledkov VaV výskumnej inštitúcie musí byť
založené na jasne stanovených pravidlách. Tieto pravidlá však nesmú byť závislé
ani od hodnoteného subjektu či objektu, ani od subjektu, ktorý hodnotí.

Ak sa má splniť táto podmienka, jedinou cestou je založiť
hodnotenie na atribútoch mikrodát výsledkov. Mikrodáta musia byť správne a overené;
iba takéto mikrodáta môžu tvoriť bázu schémy hodnotenia.

Riadiace princípy

  • Použité poskytnuté údaje:
    • Všetky ukazovatele musia byť na báze zozbieraných dát.
    • Ak sú potrebné vstupy ďalších dát, musí byť známy ich
      pôvod.
    • Údaje sú spracované jednotne pre všetky organizácie.
  • V prípade udelenia rôznych bodov sa dáva prednosť vyššej
    hodnote:

    • Napríklad niektoré články sa berú aj ako článok v impaktovanom
      časopise3, aj ako článok zo zborníka. Prideľujeme vyššiu z bodových hodnôt.
    • Je to špeciálne prípad všeobecne konzervatívneho princípu –
      je lepšie preceniť ako podceniť. Potenciálne precenenie vytvára len malú ujmu
      mnohým, zatiaľ čo podcenenie môže niekomu naozaj ublížiť.
  • Nepracujte s jedným výsledkom viac než raz:
    • Je veľmi dôležité zabezpečiť, aby v mikrodátach výsledkov
      nebol žiaden duplikát – v opačnom prípade budú body niektorým výsledkom
      pridelené dvakrát a dáta hodnotenia sa budú musieť dohodnúť.

Postup hodnotenia

  • Prideľovanie bodov výsledkom:
    • Hodnotenie výsledkov závisí od typu výsledku.
  • Hodnotenie publikácií závisí od dát, ktoré boli publikované v
    ISI (Web of Science):

    • Hodnotenie vedeckej prednášky závisí od impakt faktora časopisu,
      v ktorom bola prednáška uverejnená.
    • Hodnotenie monografie závisí od použitého jazyk
  • Hodnotenie výsledkov iných typov závisí od dostupných
    atribútov, napr.:

    • Hodnotenie patentov závisí od geografického dosahu patentu3.
  • Distribúcia bodov inštitúciám:
    • Bodová hodnota výsledkov sa dáva do inštitúcie ako pomerná
      časť pomeru počtu v nej pracujúcich autorov k celkovému počtu autorov (tzv.
      autorský pomer
      ).
    • Vložené bodové hodnoty pre inštitúciu sa sčítajú a toto
      číslo je indikátorom výkonu inštitúcie v oblasti vedy a výskumu
  • Distribúcia bodov poskytovateľom finančného príspevku:
    • Body sa prideľujú projektom podľa dosiahnutých výsledkov.
    • Body akumulované projektmi sa sčítajú pre projekty podporované
      konkrétnym poskytovateľom financií.
    • Toto číslo hodnotí výkon výskumu podporovaný uvedeným
      poskytovateľom financií.
    • Môže sa porovnať s finančnou čiastkou príspevku vypočítaním
      indexu (konkrétneho poskytovateľa): Index = (nahromadené body) / (sumou finančnej
      čiastky)

 

Literatúra

[1] The R&D Council of the Czech Republic: The Czech
Research and Development Council Website.

The English version. http://www.vyzkum.cz/?lang=en.

[2] Dvořák, J.; Souček, M.: The Research and Development
Information System of the Czech Republic. In Get the Good CRIS Going : Ensuring Quality
of Service for the User in the ERA
, Aleš Bošnjak, Maxmilian Stempfhuber (eds.),
CRIS2008, proceedings from the 9th International Conference on Current Research
Information Systems, Maribor, Slovenia, June 5th – 7th, 2008, IZUM, ISBN
978-961-6133-38-8, pp. 125–130.

[3] The data of the R&D Information System of the
Czech Republic.
 

     The English version. http://aplikace.isvav.cvut.cz/locale/en_US/.

[4] Dvořák, J.; Souček, J.: The Research and Development
Efficiency Evaluation in the Czech Republic. In Get the Good CRIS Going: Ensuring
Quality of Service for the User in the ERA,
Aleš Bošnjak, Maxmilian Stempfhuber
(eds.), CRIS2008, proceedings from the 9th International Conference on Current
Research Information Systems, Maribor, Slovenia, June 5th – 7th,
2008, IZUM, ISBN 978-961-6133-38-8, pp. 131–139.

 


 

1 Tento príspevok odznel na
medzinárodnej konferencii Informačné systémy o vede v EÚ v CVTI SR a s
láskavým dovolením autora a organizátorov konferencie ho prinášame v plnom znení.

2   Na ilustráciu situácie:
bolo zistených viac než 160 rôznych spôsobov odkazov na vydavateľstvo ČVUT.

3    Používa sa Journal
Citation Report z Web of Science.

Zdieľať: