/ Kas ir korpusa valodniecība?

Kas ir korpusa valodniecība?

Pirms dažām desmitgadēm automatizācijalingvistikas pētnieki varētu tikai sapņot. Darbs tika veikts manuāli, tajā piedalījās liels skaits studentu, bija nopietna kļūdu iespējamība "neuzmanības dēļ", un pats galvenais - viss bija ļoti daudz, ļoti daudz laika.

Ar datortehnoloģiju attīstību ir kļuvusiir iespējams veikt pētījumus ātrāk, un šodien viena no daudzsološākajām valodas apguves jomām ir corpus linguistics. Tās galvenā iezīme ir liela apjoma teksta informācijas izmantošana, apvienota vienā datu bāzē, kas ir īpaši marķēta un nosaukta ķermenim.

Līdz šim ir daudzKorps, kas izveidots ar dažādiem mērķiem, pamatojoties uz dažādiem valodu materiāliem, kas aptver no miljoniem līdz desmitiem miljardu leksisko vienību. Šis virziens tiek atzīts par daudzsološu un liecina par ievērojamu progresu pielietojamo un pētniecisko mērķu sasniegšanā. Speciālisti, kas kādā veidā nodarbojas ar dabisko valodu, ieteicams iepazīties ar tekstu kopumu vismaz pamata līmenī.

Kursa lingvistikas vēsture

Šī virziena veidošanās ir saistīta arBrauna korpusa izveide ASV pagājušā gadsimta 60. gadu sākumā. Tekstu krājumā bija tikai 1 miljons vārdu formu, un šodien šāda izmēra korpuss būtu pilnīgi nekonkurētspējīgs. Lielā mērā tas ir saistīts ar datortehnoloģiju attīstības gaitu, kā arī pieaugošo pieprasījumu pēc jauniem pētniecības resursiem.

90. gados tika izveidota korpusa lingvistikapilnīgā un neatkarīgā disciplīnā tekstu krājums tika sastādīts un atzīmēts vairākās desmitās valodās. Šajā periodā, piemēram, Lielbritānijas nacionālais korpuss tika izveidots 100 miljonu izmantošanai.

korpusa lingvistika

Tā kā šis valodniecības virziens attīstās,tekstu apjomi kļūst arvien vairāk (un sasniedz miljardus vārdu krājumu vienības), un izkārtojums ir vairāk un daudzveidīgāks. Līdz šim, internets telpu var atrast liemeņus rakstveida un mutvārdu valodu, daudzvalodu un mācību orientēta māksliniecisko vai akadēmisko literatūru, kā arī daudzas citas sugas.

Kādas ir iestādes?

Gadījumu veidi, ja lingvistika var būtiesniegts uz vairākiem pamatiem. Intuitīvi, par pamatu klasifikācijai var būt teksta valodu (krievu, vācu), piekļuves režīmu (open source, slēgta, tirdzniecības), žanru izejmateriāla (daiļliteratūra, dokumentālā filma, akadēmisko, žurnālistikas).

korpuslingutikas metodes

Interesants veids ir paaudzemateriāli runas valodas. Tā apzināta ieraksts šādas runas, lai radītu mākslīgu vidi respondentiem, un iegūtais materiāls nevar saukt "spontāni", mūsdienu korpusa lingvistikas ir gājusi citu ceļu. Brīvprātīgais ir aprīkota ar mikrofonu, un dienas laikā ražo reģistrē visas sarunas, kurās tā piedalās. Cilvēki apkārt, protams, nevar zināt, ka, veicot ikdienas saruna veicina zinātnes attīstību.

Vēlāk saņemtais audio tiek saglabāts bankādati un tie ir pievienoti drukātajam tekstam saskaņā ar stenogrammas tipu. Tādējādi iespējama marķēšana, kas nepieciešama, lai radītu mutisku ikdienas runu.

Pieteikums

Ja iespējams izmantot valodu, ir iespējams arī izmantot teksta lodziņus. Ķermeņa metožu pielietojums lingvistikā var būt:

  • Izveidojiet toņu noteikšanas programmas, kas tiek aktīvi izmantotas politikā un biznesā, lai izsekotu attiecīgi pozitīvas un negatīvas atbildes no vēlētājiem un klientiem.
  • Informācijas sistēmas savienošana ar vārdnīcām un tulkotājiem, lai uzlabotu to darbību.
  • Dažādas pētījumu uzdevumus, kas veicina izpratni par valodas vienību, vēsturi tās attīstību un prognozes par izmaiņām tuvākajā nākotnē.
  • Informācijas iegūšanas sistēmu izstrāde, kuras pamatā ir morfoloģiskās, sintaktiskās, semantiskās un citas īpašības.
  • Dažādu valodu sistēmu darba optimizācija utt.

Korpusu izmantošana

Resursu saskarne ir līdzīga tipiskajai meklētājprogrammaisistēma un liek lietotājam ievadīt kādu vārdu vai vārdu kombināciju, lai meklētu ar informācijas bāzi. Papildus precīzai pieprasījuma veidlapai varat izmantot paplašināto versiju, kas ļauj atrast teksta informāciju gandrīz visiem valodu kritērijiem.

datora un lietvedības valodniecība

Meklēšanas pamatā var būt:

  • kas pieder konkrētai runas daļu grupai;
  • gramatiskās zīmes;
  • semantika;
  • stilistiskās un emocionālās krāsas.

Turklāt jūs varat apvienot meklēšanas kritērijusvārdu sekvences: piemēram, lai atrastu visus darbības vārdu pašreizējā sasprindzē, pirmā persona, vienskaitlis, pēc kura ir priekšnosacījums "c" un lietvārds akustiskajā lietā. Šāda vienkārša uzdevuma risinājums lietotājam aizņem dažas sekundes un noteiktos laukos prasa tikai dažus klikšķus.

Izveides process

Paško meklēšanu var veikt gan uz visām apakšgrupām, gan uz vienu, īpaši izvēlētu, atkarībā no konkrētā mērķa sasniegšanas vajadzībām.

  1. Pirmais solis ir noteikt, kuri teksti tiks iekļautiuz korpusa pamata. Praktiskajos nolūkos bieži izmanto žurnālistikas, laikrakstu materiālus, interneta komentārus. Pētījumu projektos tiek izmantoti dažādi iežogojumu veidi, taču tekstus izvēlas pēc dažiem kopīgiem pamatiem.
  2. Iegūtais tekstu kopums tiek pakļauts iepriekšējai apstrādei, tiek labotas kļūdas, ja tādas ir, tiek sagatavots bibliogrāfisks un ārpuslīgumiskā teksta apraksts.
  3. Visa informācija, kas nav teksta informācija, ir dzēsta: grafika, attēli, tabulas tiek dzēstas.
  4. Turpmākai apstrādei ir izvēlēti marķieri, kas parasti ir vārdi.
  5. Visbeidzot tiek realizēts iegūto elementu kopas morfoloģiskais, sintaktisks un cits marķējums.

Visu veikto darbību rezultāts irsintakses struktūra ar elementu kopumu, kas sadalīta pa to, katrai no kurām ir definēta runas daļa, gramatika un dažos gadījumos arī semantiskās funkcijas.

Grūtības ēku izveidē

Ir svarīgi to saprast, lai iegūtu mājoklinepietiek, lai sapludinātu daudz vārdus vai teikumus. No vienas puses, tekstu krājumam jābūt līdzsvarātai, tas ir, pārstāvēt dažāda veida tekstus noteiktās proporcijās. No otras puses, lietu saturam jābūt īpaši marķētam.

zaharov corpus linguistics

Pirmais jautājums tiek atrisināts ar vienošanos: Piemēram, kolekcijā ietilpst 60% no literāriem tekstiem, 20% no dokumentālajām noteiktu procentuālo dots rakstisks pārstāvību sarunvalodu, tiesību aktiem, pētījumiem un tā tālāk. d. perfektu recepte līdzsvarojot ķermeņa šodien neeksistē.

Otrais jautājums par satura noformēšanuir grūtāk atrisināt. Automātiskajai atzīmei tiek izmantotas īpašas programmas un algoritmi, taču tie nesniedz 100% rezultātu, tie var izraisīt kļūmes un prasīt manuālu pārskatīšanu. Šīs problēmas risināšanas iespējas un problēmas ir sīki aprakstītas Zaharova darbā par korpuslingutiku.

Teksta atzīme tiek veikta vairākos līmeņos, kurus mēs uzskaitīsim zemāk.

Morfoloģiskais marķējums

No skolas sola mēs to atceramies krievu valodāIr dažādas runas daļas, un katrai no tām ir savas īpatnības. Piemēram, darbības vārdam ir garastāvokļa un laika kategorijas, kas lietvārdam nav. Vietējais runātājs nevilcinās nomaldīt lietvārdus un konjugēt darbības vārdus, bet rokas darbs nedarbosies, lai atzīmētu lietu 100 miljonu vārdos. Visu nepieciešamo darbību var veikt ar datoru, taču tam ir nepieciešams mācīt.

Ir nepieciešams morfoloģisks marķējumsdators "saprata" katru vārdu kā runas daļu ar noteiktiem gramatiskajiem elementiem. Tā kā vairāki regulāri noteikumi darbojas krieviski (tāpat kā jebkurā citā valodā), ir iespējams izveidot automātisku morfoloģiskās analīzes procedūru, ieguldot vairākus algoritmus mašīnā. Tomēr ir izņēmumi no noteikumiem, kā arī dažādi sarežģījumi. Tā rezultātā tīra datora analīze šodien nav perfekta, un pat 4% kļūdu veido 4 miljonus vārdu katrā gadījumā līdz 100 miljoniem vienību, kas prasa manuālu pārskatīšanu.

Detalizēti šo problēmu raksturo Zakharov VP "Corpus linguistics".

Sintaktiskā atzīme

Parsēšana vai parsēšana irProcedūra, kas nosaka vārdu attiecības teikumā. Ar algoritmu kopuma palīdzību kļūst iespējams noteikt tekstā priekšmetu, predikātu, papildinājumus, dažādus runas pagriezienus. Nosakot, kuri secības vārdi ir galvenie un kuri ir atkarīgi no tā, mēs varam efektīvi iegūt informāciju no teksta un apmācīt mašīnu, lai atbildētu uz meklēšanas vaicājumu, lai izsniegtu tikai informāciju, kas mūs interesē.

Krievu universitāšu korpuslingvistikas laboratorija

Starp citu, mūsdienu meklētājprogrammas izmantoTas ir sniegt konkrētus skaitļus, nevis garus tekstus, atbildot uz atbilstošiem jautājumiem, piemēram, "cik daudz kaloriju ir ābolu" vai "attālums no Maskavas uz Pēterburgu". Tomēr, lai saprastu pat aprakstītā procesa pamati, jums būs nepieciešams iepazīties ar "Ievads korpusa lingvistikā" vai citu pamata mācību palīdzību.

Semantiskais marķējums

Vārda semantika ir vienkārša izteiksmenozīmē. Plaši piemērojama pieeja semantiskajā analīzē ir vārda atzīmju piešķiršana, kas atspoguļo tā piederību semantikas kategoriju un apakškategoriju kopai. Šāda informācija ir vērtīga algoritmu optimizēšanai, lai analizētu teksta tonalitāti, automātisku abstraktēšanu un citus uzdevumus, izmantojot korpuslingutikas metodes.

Ir vairāki koka "saknes"kas ir abstrakts vārds, kam ir ļoti plaša semantika. Tā kā šīs koku filiāles veido mezglus, kas satur arvien specifiskākus leksiskos elementus. Piemēram, vārdu "radījums" var saistīt ar tādiem jēdzieniem kā "cilvēks" un "dzīvnieks". Pirmais vārds tiks tālāk sazarots dažādām profesijām, radniecības un tautības noteikumiem, bet otrais - uz dzīvnieku klasēm un sugām.

Informācijas izguves sistēmu pielietošana

Korpusa lingvistikas izmantošanas jomasaptver plašu darbību klāstu. Lietas tiek lietotas, lai izveidotu un labotu vārdnīcas, izveidotu automātiskās tulkošanas sistēmas, abstrakti, ekstrakta faktus, noteiktu atslēgu un citu tekstapstrādi.

ķermeņa valodas ķermeņa tipi

Turklāt šie resursi tiek aktīvi izmantotistudējot pasaules valodas un valodas funkcionēšanas mehānismus kopumā. Piekļuve liela apjoma iepriekš sagatavotai informācijai veicina operatīvu un visaptverošu valodu attīstības tendenču izpēti, neoloģismu veidošanos un stabilu runas apgrozījumu, izmaiņām leksisko vienību vērtībās,

Tā kā darbam ar tik lieliem datu apjomiem nepieciešama automatizācija, šodien ir cieša mijiedarbība starp datoru un korpusa valodu.

Krievu valodas nacionālā ēka

Šī ēka (saīsināti ar NKRN) ietver vairākus apakškorpusus, kas ļauj izmantot resursus dažādu uzdevumu risināšanai.

Materiāli NKRN bāzē ir iedalīti:

  • par 90. un 2000. gadu plašsaziĦas līdzekĜu publicēšanu gan iekšzemes, gan ārzemēs;
  • mutiskās runas ieraksti;
  • akcentēti atzīmēti teksti (ti, ar atzīmēm par stresu);
  • dialekta runa;
  • dzejas darbi;
  • materiāli ar sintakses marķējumu uc

Informācijas sistēma ietver arī Subcorpus ar paralēlām tulkojumiem darbiem no krievu uz angļu, vācu, franču un daudzās citās valodās (un otrādi).

Arī datubāzē ir sadaļa vēsturisko tekstu,kas rakstveidā runā krievu valodā dažādos tā attīstības periodos. Ir arī izglītības ēka, kas var būt noderīga ārvalstu pilsoņiem, apgūstot krievu valodu.

Krievu valodas nacionālais korpuss ietver 400 miljonus leksisko vienību un daudzējādā ziņā pārspēj ievērojamu daļu no Eiropas valodu ēkām.

Perspektīvas

Fakts par labu šī virziena atzīšanaiDaudzsološs ir korpuslingvistikas laboratoriju klātbūtne Krievijas universitātēs, kā arī ārvalstīs. Izmantojot pētījumus un pētījumus saistībā ar apspriežamajiem informācijas un meklēšanas resursiem, ir iesaistīta noteiktu jomu attīstība augsto tehnoloģiju jautājumos, jautājumu un atbilžu sistēmās, bet tas ir apspriests iepriekš.

korpusa lingvistikas vēsture

Turpmākā korpuslingvistikas attīstībaprognozēts visos līmeņos, sākot no tehniskā un ieviešanas ziņā jaunu algoritmu, kas optimizē procesus meklēt un apstrādāt informāciju, dodot datori, vairāk RAM, un patērētājiem, jo ​​lietotāji ir vairāk un vairāk veidus, kā izmantot šāda veida resursu savā ikdienas dzīvē un darbā .

Noslēgumā

Pagājušā gadsimta vidū, 2017. gadātālā nākotnē, kurā kosmosa lidmašīnas plūst Visuma platības un roboti dara visu darbu cilvēkiem. Faktiski zinātne ir bagāta ar "baltajiem plankumiem" un izmisīgi mēģina atbildēt uz jautājumiem, kas gadsimtiem ilgi ir satraukuši cilvēci. Jautājums par valodas funkcionēšanu šeit aizņem godīgu vietu, un korpuslāro un diktēšanas valodniecība var mums palīdzēt viņiem atbildēt.

Tiek atļauta lielu datu kopu apstrādelai noteiktu modeļus, kas iepriekš nebija pieejami, lai paredzētu noteiktu valodu iezīmju attīstību, lai izsekotu vārdu veidošanos gandrīz reālajā laikā.

Praktiskā globālā līmenīpiemēram, kā potenciālu instrumentu, lai novērtētu sabiedrības noskaņojumu - Internets ir arvien paplašināta datu bāze par dažādiem reālu lietotāju veidotiem tekstiem: tie ir komentāri un atsauksmes, raksti un daudzi citi runas veidi.

Papildus tam veicina darbu ar korpusiemtādu pašu tehnisko līdzekļu izstrāde, kuri piedalās informācijas meklēšanā, kas mums ir pazīstami Google vai Yandex pakalpojumos, mašīntulkošana, elektroniskās vārdnīcas.

Var droši apgalvot, ka korpusa lingvistika ir tikai pirmie soļi, un tuvākajā nākotnē strauji attīstīsies.

</ p>>
Lasīt vairāk: