Elhuyar Zientzia eta Teknologia aldizkariko ekaineko alean Andoni Sagarnak artikulu interesgarria idatzi du hizkuntzaren teknologiak eta hizkuntzaren industriaren inguruan. Besteak beste, hizkuntzaren prozesamenduan oinarritutako aplikazioak heldutasunera eta merkatura iristen ari direla azaltzen digu, eta horiek lantzen dituzten industria batzuk indarra hartzen ari direla.
1990ean, Sir Tim Berners-Lee CERNeko ikertzaileak World Wide Web-a asmatu zuen, hipertestuaren kontzeptua eta Interneteko TCP/IP eta DNS protokoloak konbinatuz. Asmakizun hark gu guztion bizitza eta mundu osoa aldatu zituen. Hala ere, aldaketa hori ez da ezer izango Berners-Lee azkenaldian lantzen ari den ideia berria, web semantikoa alegia, gauzatuz gero sortuko denaren aldean.
EHUko Udako XXVIII. ikastaroen barnean Soziolingusitika Klusterrak “Zein hizkuntza hitz egiten du komunikazio gizarteak?” ikastaroa antolatu du. Ikastaro honetan Elhuyar Fundazioko Josu Waliñok hitzaldia eman zuen atzo “Hizkuntzen industriaren erronka berriak” izenburupean.
Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.
Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere Continue reading »
Batzuek dagoeneko jakingo duzuen bezala, aurreko astean ospatu zen SEPLNren (Sociedad Española para el Procesamiento del Lenguaje Natural) 24. kongresua Leganesen. Kongresu hori hizkuntza teknologien inguruan ospatzen den garrantzitsuena da estatu mailan. Aurten 66 artikulu jaso zituzten, eta horietatik 34 onartu ziren. Hiru egunetan zehar, 34 artikulu horiei dagozkien aurkezpenez gain, 9 demo eta 5 proiekturen laburpenak izan ziren ikusgai.
ZT Corpusa, Zientzia eta Teknologiaren Corpusa, handitu egin da, eta kontsulta-aukera berriak eskaintzen ditu. Zientzia eta teknologiaren alorreko euskara ikertzeko garatutako hizkuntza-baliabide ahaltsua da ZT Corpusa. Elhuyar Fundazioak eta EHUkoIXA Taldeak elkarlanean garatutako proiektu honen lehen emaitzak 2006aren hondarrean aurkeztu zirenjendaurrean, on-line kontsultatzeko interfazea kaleratu zenean. Baina beti hedatu eta hobetzeko asmoari jarraituz, kontsulta-aukera hedatuez eta testu gehiagoz hornitu da berriki.
Elhuyar Fundazioko I+G+Bko lantaldea hizkuntza-teknologien LREC 2008 biltzarrean izan da, Marrakechen. Hizkuntza-teknologietako azken joerak ezagutu, eta Elhuyarren I+G+Bren azken ikerketa-proiektuak nazioartean ezagutarazi ditugu.
Azken iruzkinak