Technoleg Adnabod Lleferydd Cymraeg
Bydd y prosiect yma yn datblygu technoleg trawsgrifio awtomatig sy’n adnabod lleferydd Cymraeg. Bydd Cymen yn casglu 500 awr o leisiau Cymraeg i greu’r corpws mwyaf erioed o ddata testun a llais Cymraeg, ac yn casglu lleisiau gan gyfranogwyr o bob cwr o ardal ARFOR. Byddent wedyn yn gallu gwerthuso sawl awr o sain sydd ei angen i hyfforddi’r peiriant trawsgrifio yn effeithiol.
Rydyn ni’n gweld hwn fel naid enfawr ar lwybr hollbwysig i sicrhau na fydd y Gymraeg yn cael ei gadael ar ôl yn y gofod digidol. Nid yw’r modelau iaith na’r swmp data ar gael mewn ieithoedd lleiafrifol felly ein bwriad ni yw creu’r gronfa ddata ieithyddol hyn er mwyn gallu hyfforddi’r peiriannau AI i ymdrin â’r Gymraeg yn yr un modd.