Datorren astean, irailaren 7tik 10era, SEPLN erakundearen XXV. kongresua, SEPLN’09, ospatuko da Donostiako Miramar Jauregian. Kongresuaren helburu nagusia Hizkuntzaren Prozesamenduan egindako azken ikerketa eta garapenak aurkeztea da, komunitate zientifikoari zein inguruko enpresei. Topaketa honek hizkuntzen ordenagailu bidezko prozesamenduak aurreratzen jarraitzea ahalbidetuko duelakoan gaude.
SEPLN erakundea (Sociedad Española para el Procesamiento del Lenguaje Natural) Donostian jaio zen 1984ean, EHUko ikerlari-talde baten eskutik, eta horregatik berriro dator Donostiara XXV. urtemugan. Irailaren 8tik 10era 150 parte-hartzaileek 36 aurkezpen zientifiko, 8 proiektu eta 11 produktu-demostrazio ikusi ahal izango dituzte.
WAC5 workshop-aren barruan Elhuyar I+G+B taldeko Igor Leturiak Search engine based approaches for collecting domain-specific Basque-English comparable corpora from the Internet artikulua aurkeztuko du.
Igor Leturiak aurreko bi artikuluetan azaldu digunez (1, 2), web semantikoak, hau da, esanahizko marken bidez etiketatutako eta erlazionatutako elementuz osatutako Internet berri batek aukera berri mordoa irekiko ditu, baina hura inplementatzea neketsua eta konplikatua da, eta ez da berehalakoan iritsiko.
Bitartean, ideia horren gainean gauzak egiten joan daitezkeela sinetsita, mikroformatuak sortu dituzte, egungo HTMLn oinarritutako sarean kontzeptu jakin batzuk semantikoki etiketatzeko bidea. “Mikroformatuak, web semantikoaren aperitifa” da web semantikoaren inguruan Igor Leturiak idatzitako hirugarren artikulua Elhuyar Zientzia eta Teknologia aldizkarian.
Martxoaren 25etik 27ra ospatu zen Edinburgon TAUS “Translation Automation User Society” erakundeak antolatutako foroa.
TAUSitzulpen-erabiltzaileak, teknologia-hornitzaileak eta itzulpengintzako enpresak biltzen dituen elkartea da. Edinburgon antolatutako foroak kode irekiko itzukpen-plataformak aurkeztea zuen helburu eta Elekako Iñaki Irazabalbeitiak OpenTrad sistema aurkeztu zuen. Hemen duzue ikusgari OpenTrad-en aurkezpena:
Elhuyar Zientzia eta Teknologia aldizkariko ekaineko alean Andoni Sagarnak artikulu interesgarria idatzi du hizkuntzaren teknologiak eta hizkuntzaren industriaren inguruan. Besteak beste, hizkuntzaren prozesamenduan oinarritutako aplikazioak heldutasunera eta merkatura iristen ari direla azaltzen digu, eta horiek lantzen dituzten industria batzuk indarra hartzen ari direla.
Elhuyar Zientzia eta Teknologia aldizkariko maiatzeko artikuluan, Sir Tim Berners-Leek asmatutako World Wide Webak eta haren oinarrian dagoen HTML formatuak dituzten arazoak azaldu zituen Igor Leturiak, eta azaletik azaldu zuen zer den Berners-Leek berak proposatutako konponbidea, web semantikoa, alegia.
Artikulu honetan, web semantikoaren azpian dauden teknologiak eta adibideak azaldu ditu, eta hura egia bihurtzeko dauden arazoak ere bai.
1990ean, Sir Tim Berners-Lee CERNeko ikertzaileak World Wide Web-a asmatu zuen, hipertestuaren kontzeptua eta Interneteko TCP/IP eta DNS protokoloak konbinatuz. Asmakizun hark gu guztion bizitza eta mundu osoa aldatu zituen. Hala ere, aldaketa hori ez da ezer izango Berners-Lee azkenaldian lantzen ari den ideia berria, web semantikoa alegia, gauzatuz gero sortuko denaren aldean.
EHUko Udako XXVIII. ikastaroen barnean Soziolingusitika Klusterrak “Zein hizkuntza hitz egiten du komunikazio gizarteak?” ikastaroa antolatu du. Ikastaro honetan Elhuyar Fundazioko Josu Waliñok hitzaldia eman zuen atzo “Hizkuntzen industriaren erronka berriak” izenburupean.
Hizkuntzalaritzan eta, bereziki, hizkuntza-teknologietan, corpus konparagarriak gero eta garrantzia handiagoa hartzen ari dira azken urteotan. Artikulu honetan corpus konparagarriak zer diren, eta hizkuntzalaritzan nahiz hizkuntza-teknologietan zertarako balio dezaketen azaltzen saiatuko gara.
Testu-corpusak idatzizko dokumentuen bildumak dira, eta oinarrizko baliabideak dira hizkuntza naturalaren zenbait ezaugarri aztertu ahal izateko edota hipotesiak kontrastatzeko. Hizkuntza naturalaren prozesamendua egiteko behar den ezagutza inferitzeko ere oso garrantzitsuak dira. Hala ere, corpus-mota asko daude, eta, zereginaren arabera, batzuk aproposagoak dira besteak baino. Corpus konparagarriak, adibidez, antzeko testuez osatutako bildumak dira. Dokumentuak “antzekoak” direla esateko irizpide ezberdinak badaude ere Continue reading »