dbpedia · advenk · Aug 16, 2024 · Aug 16, 2024 · Aug 16, 2024 · Aug 16, 2024
diff --git a/core/src/main/scala/org/dbpedia/extraction/config/dataparser/DateTimeParserConfig.scala b/core/src/main/scala/org/dbpedia/extraction/config/dataparser/DateTimeParserConfig.scala
@@ -23,6 +23,7 @@ object DateTimeParserConfig
         "ga" -> Map("eanáir"->1,"feabhra"->2,"marta"->3,"aibreán"->4,"bealtaine"->5,"meitheamh"->6,"iúil"->7,"lúnasa"->8,"meán fómhair"->9,"deireadh fómhair"->10,"samhain"->11,"nollaig"->12),
         "gl" -> Map("xaneiro"->1,"febreiro"->2,"marzo"->3,"abril"->4,"maio"->5,"xuño"->6,"xullo"->7,"agosto"->8,"setembro"->9,"outubro"->10,"novembro"->11,"decembro"->12,
                     "xan"->1,"feb"->2,"mar"->3,"abr"->4,"mai"->5,"xuñ"->6,"xul"->7,"ago"->8,"set"->9,"out"->10,"nov"->11,"dec"->12),
+        "hi" -> Map("जनवरी"->1, "फरवरी"->2, "मार्च"->3, "अप्रैल"->4, "मई"->5, "जून"->6, "जुलाई"->7, "अगस्त"->8, "सितम्बर"->9, "अक्टूबर"->10, "नवंबर"->11, "दिसंबर"->12),
         "hr" -> Map("siječanj"->1,"veljača"->2,"ožujak"->3,"travanj"->4,"svibanj"->5,"lipanj"->6,"srpanj"->7,"kolovoz"->8,"rujan"->9,"listopad"->10,"studeni"->11,"prosinac"->12),
         "id" -> Map("januari"->1,"februari"->2,"maret"->3,"april"->4,"mei"->5,"juni"->6,"juli"->7,"agustus"->8,"september"->9,"oktober"->10,"november"->11,"desember"->12),
         "it" -> Map("gennaio"->1,"febbraio"->2,"marzo"->3,"aprile"->4,"maggio"->5,"giugno"->6,"luglio"->7,"agosto"->8,"settembre"->9,"ottobre"->10,"novembre"->11,"dicembre"->12),
@@ -62,6 +63,7 @@ object DateTimeParserConfig
         "fr" -> Map("av\\. J\\.-C\\."-> -1, "ap\\. J\\.-C\\." -> 1),
         "ga" -> Map("B\\.C\\." -> -1, "R\\.C\\." -> -1, "r\\. Chr\\." -> -1, "BC" -> -1, "RC" -> -1, "A\\.D\\." -> 1, "AD" -> 1, "I\\.C\\." -> 1, "IC" -> 1),
         "gl" -> Map("AC"-> -1, "A\\.C\\."-> -1, "DC"-> 1, "D\\.C\\."-> 1, "aC"-> -1, "a\\.C\\."-> -1, "dC"-> 1, "d\\.C\\."-> 1, "AEC"-> -1, "A\\.E\\.C\\."-> -1 , "EC"-> 1, "E\\.C\\."-> 1),
+        "hi" -> Map("ई\\.पू\\." -> -1, "BC" -> -1, "ई॰" -> 1, "CE"-> 1, "AD"-> 1, "AC"-> -1),
         "it" -> Map("AC"-> -1, "A\\.C\\."-> -1, "DC"-> 1, "D\\.C\\."-> 1, "AD"-> 1, "A\\.D\\."-> 1, "PEV"-> -1, "P\\.E\\.V\\."-> -1, "EV"-> 1, "E\\.V\\." -> 1),
         "ja" -> Map("前"-> -1, "B\\.C\\."-> -1, "西暦"-> 1),
         "nl" -> Map("v\\.Chr\\." -> -1, "n\\.C\\."-> 1, "v\\.C\\." -> -1, "n\\.Chr\\."-> 1, "voor Chr\\." -> -1, "na Chr\\."-> 1), 
@@ -81,6 +83,7 @@ object DateTimeParserConfig
         "fr" -> "er|nd|ème",
         "ga" -> "ú",
         "gl" -> "°|\\.°|°\\.|ª|\\.ª|ª\\.|º|\\.º|º\\.",
+        "hi" -> "वॉ",
         "it" -> "°|\\.°|°\\.",
         "nl" -> "ste|de|e",
         "pt" -> "°|\\.°|°\\.",

diff --git a/core/src/main/scala/org/dbpedia/extraction/config/dataparser/DurationParserConfig.scala b/core/src/main/scala/org/dbpedia/extraction/config/dataparser/DurationParserConfig.scala
@@ -379,6 +379,19 @@ object DurationParserConfig
             "año" -> "year",
             "años" -> "year"
         ),
+        "hi" -> Map(
+            "सेकेंड" -> "second",
+            "सेकेण्ड" -> "second",
+            "s" -> "second",
+            "\"" -> "second",
+            "मिनट" -> "minute",
+            "\\’" -> "minute",
+            "m" -> "minute",
+            "घंटा" -> "hour",
+            "दिन" -> "day",
+            "महीना" -> "month",
+            "वर्ष" -> "year"
+        ),
         "it" -> Map(
             "secondo" -> "second",
             "secondi" -> "second",

diff --git a/core/src/main/scala/org/dbpedia/extraction/config/mappings/DateIntervalMappingConfig.scala b/core/src/main/scala/org/dbpedia/extraction/config/mappings/DateIntervalMappingConfig.scala
@@ -22,6 +22,7 @@ object DateIntervalMappingConfig
         "eu" -> Set("gaur egun", "gaur egun arte", "egun"),
         "fr" -> Set("aujourd'hui", "en cours"),
         "ga" -> Set("inniu"),
+        "hi" -> Set("अबतक"),
         "hr" -> Set("danas"),
         "hu" -> Set("napjainkig"),
         "id" -> Set("sekarang"),

diff --git a/...src/main/scala/org/dbpedia/extraction/config/mappings/DisambiguationExtractorConfig.scala b/...src/main/scala/org/dbpedia/extraction/config/mappings/DisambiguationExtractorConfig.scala
@@ -22,6 +22,7 @@ object DisambiguationExtractorConfig
          "ga" -> " (idirdhealáin)",
          "gl" -> " (homónimos)",
          "he" -> " (פירושונים)",
+         "hi" -> " (बहुविकल्पी)", // eg. https://hi.wikipedia.org/wiki/आयरलैण्ड_(बहुविकल्पी)
          "hu" -> " (egyértelműsítő lap)",
          "id" -> " (disambig)",
          "it" -> " (disambigua)",

diff --git a/core/src/main/scala/org/dbpedia/extraction/config/mappings/HomepageExtractorConfig.scala b/core/src/main/scala/org/dbpedia/extraction/config/mappings/HomepageExtractorConfig.scala
@@ -38,6 +38,7 @@ object HomepageExtractorConfig
         "eu" -> Set("webgunea"),
         "fr" -> Set("website", "homepage", "web", "site", "siteweb", "site web"),/*cleanup*/
         "ga" -> Set("suíomh"),
+        "hi" -> Set("वेबसाइट"),
         "it" -> Set("homepage", "sito", "sito web"),
         "ja" -> Set("homepage", "website", "web", "siteweb", "HP", "ホームページ", "ウェブ", "サイト", "ウェブサイト", "公式サイト"),
         "mk" -> Set("Портал", "Мреж. место"),
@@ -68,6 +69,7 @@ object HomepageExtractorConfig
         "eu" -> "Kanpo loturak?",
         "fr" -> "(?:Lien externe|Liens externes|Liens et documents externes)",
         "ga" -> "(?:Naisc sheachtracha|Nasc sheachtrach)",
+        "hi" -> "बाहरी कड़ियाँ",
         "it" -> "Collegamenti esterni",
         "ja" -> "外部リンク",
         "mk" -> "Надворешни врски",
@@ -96,6 +98,7 @@ object HomepageExtractorConfig
         "eu" -> "ofiziala?",
         "fr" -> "officiel",
         "ga" -> "oifigiúil",
+        "hi" -> "आधिकारिक",
         "it" -> "ufficiale",
         "ja" -> "(?:公式|オフィシャル)",
         "mk" -> "официјален",
@@ -121,6 +124,7 @@ object HomepageExtractorConfig
         "es" -> Map("Página_web" -> "1"),
         "fr" -> Map("Site_officiel" -> "url"),
         "ga" -> Map("Páxina_web" -> "1"),
+        "hi" -> Map("आधिकारिक वेबसाइट" -> "1"),
         "ja" -> Map("Official website" -> "1"),
         "pt" -> Map("Oficial" -> "1"),
         "ru" -> Map("Официальный сайт" -> "1"),

diff --git a/core/src/main/scala/org/dbpedia/extraction/config/mappings/ImageExtractorConfig.scala b/core/src/main/scala/org/dbpedia/extraction/config/mappings/ImageExtractorConfig.scala
@@ -21,6 +21,7 @@ object ImageExtractorConfig
            "eu" -> """(?i)\{\{\s?(Cc-by-nc-sa-2.5|Wikimedia_logoa|Copyrightdun_logoa|Lizentzia_gabea|Album_azala|Aldizkari_azala|Fair_use|Bideo-zinta_azala|Dirua|DVD_azala|Egunkari_azala|Film_pantaila_irudia|Film_posterra|HQFL_logotipoa|Ikonoa|Ikurra|Irrati_logotipoa|Jatetxe_logotipoa|Joku_azala|Joku_pantaila_irudia|Kirol_logotipoa|Komiki_azala|Liburu_azala|Logotipoa|Mahai-joku_azala|Olinpiada_logotipoa|Politika_posterra|Propaganda|Software_azala|Software_pantaila_irudia|Zigilua|TB_pantaila_irudia|Web_pantaila_irudia)\s?\}\}""".r,
            "fr" -> """(?iu)\{\{\s?(Copyright by Wikimedia|Copyvio|Logo|Screenshot|Ordnance Survey Copyright|Fairuse|Noncommercial|PolandGov|nonderivative|NZCrownCopyright|PD-IndiaGov|ADRM2|Marque déposée)\s?\}\}""".r,
            "gl" -> """(?iu)\{\{\s?(non-free|Copyright by Wikimedia|Copyvio|Logo|Screenshot|PD-CAGov|Fairuse|Noncommercial|Nonderivative|NZCrownCopyright|PolandGov|PD-IndiaGov|ADRM2)\s?\}\}""".r,
+           "hi" -> """(?i)\{\{\s?non-free""".r,
            "id" -> """(?i)\{\{\s?(non-free|Fairuse|Logo|LogoOlahraga|LogoTV|FotoHistoris|GambarKarakter|Promophoto|Smithsonian|TampilanFilm|TampilanVideo|TampilanSitus|TampilanPermainan|GambarUang|GambarPerangko|SampulVideo|SampulPermainan|SampulAlbum|SampulBuku|Poster|GambarBerhakTayangBersyarat)\s?\}\}""".r,
            "it" -> """(?iu)\{\{\s?(Sconosciuto|Riservato|NonCommerciale|Unknown|Noncommercial|Nonderivative|Copyrighted|Screenshot|Ordinance Survey Copyright|Fairuse|Cc-nc|cc-by-nc|cc-by-nc-2.0|cc-nc-sa|cc-by-nc-sa|Cc-by-nc-sa-1.0|cc-by-nc-sa-2.0|cc-nd-nc|cc-by-nd-nc|cc-by-nd-nc-2.0|cc-nd|cc-by-nd|cc-by-nd-2.0|TW-cc-by-nc-nd-2.0|TW-cc-by-nc-sa-2.0|Copyright by Wikimedia|CopyrightbyWikimedia)\s?\}\}""".r,
            "ja" -> """(?iu)\{\{\s?(Copyright by Wikimedia|Copyvio|Logo|Screenshot|PD-CAGov|Fair use|Noncommercial|PolandGov|Nonderivative|NZCrownCopyright|PD-IndiaGov|ADRM2|RomanianGovernmentCopyright|FrenchMinistryOfForeignAffairs|IRFCA|Members of the Riksdag|Attribution-Ubisoft)\s?\}\}""".r,

diff --git a/dump/extraction.default.properties b/dump/extraction.default.properties
@@ -67,7 +67,7 @@ extractors.ga=.MappingExtractor,.HomepageExtractor
 
 extractors.gl=.MappingExtractor
 
-extractors.hi=.MappingExtractor
+extractors.hi=.MappingExtractor,.HomepageExtractor,.DisambiguationExtractor,.TopicalConceptsExtractor,.ImageExtractorNew,.AnchorTextExtractor,.CommonsResourceExtractor
 
 extractors.hr=.MappingExtractor
 

diff --git a/dump/extraction.spark.properties b/dump/extraction.spark.properties
@@ -68,7 +68,7 @@ extractors.ga=.HomepageExtractor
 
 extractors.gl=
 
-extractors.hi=
+extractors.hi=.HomepageExtractor,.DisambiguationExtractor,.TopicalConceptsExtractor,.AnchorTextExtractor,.CommonsResourceExtractor
 
 extractors.hr=