Kā izdzēst vietni vai tās fragmentus no Google indeksa

Saskaņā indeksācijas koncepciju, ko Google pieņemta,Tiek ņemta vērā informācijas pilnīgums, objektivitāte un tā atbilstība meklēšanas vaicājumam, kad tiek doti rezultāti. Ja vietne ar nelegālu saturu iekļūst indeksā vai resurss ir paredzēts surogātpastu, tad šādas vietnes lapas netiks atzīmētas meklētājprogrammas vispārējā datubāzē. Mums ir svarīgi uzzināt, kā vietni no servera izdzēst meklēšanas rezultātos.

Google nulles indeksēšanas iespējas

Kad rāpuļprogramma ir savākšanas programmainformācija par jauniem resursiem - skenēs vietni pa lapām, tad, ja tā atbilstu Google politikai par parsēšanu, tā tiks indeksēta. Bet mēs arī aprakstīsim, kā izdzēst savu vietni vai atsevišķus fragmentus meklētājprogrammām, izmantojot robots.txt - rādītāju un tajā pašā laikā meklēšanas termināli.

Lai izslēgtu visu resursu no izdošanas,servera saknes mape, kurā atrodas šī vietne, izveido noteiktu teksta zonu - iepriekš minēto robots.txt. Šo zonu apstrādā meklētājprogrammas un darbojas saskaņā ar instrukcijām lasīt.

Paturiet prātā, ka Google meklētājprogrammaindeksējiet lapu, pat ja lietotājam nav atļauts skatīt. Kad pārlūkprogramma reaģē uz 401 vai 403, "Piekļuve nav derīga", tas attiecas tikai uz apmeklētājiem, nevis uz šī meklēšanas servera savākšanas programmām.

Lai saprastu, kā vietni izdzēst no meklēšanas indeksēšanas, teksta rādītājā jāievada šādas rindiņas:

Lietotāja aģents: Googlebot

Disallow: /

Tas norāda meklēšanas robotam, ka ir aizliegts indeksēt visu vietnes saturu. Tālāk ir norādīts, kā izdzēst Google vietni, lai vietne neaptver resursu noteiktu vietņu sarakstā.

Skenēšanas opcijas dažādiem protokoliem

Ja jums ir nepieciešams uzskaitīt atsevišķus standartusSaites, par kurām jūs vēlaties piemērot īpašus Google indeksēšanas noteikumus, piemēram, hiperteksta protokolu http / https atsevišķi atsevišķi, tas arī jāraksta robots.txt šādā veidā (piemērs).

(http://yourserver.com/robots.txt) - jūsu vietnes domēna nosaukums (jebkura)

Lietotāja aģents: * - jebkurai meklētājprogrammai

Atļaut: / - atļaut pilnīgu indeksēšanu

Kā pilnīgi noņemt vietni https protokolam

(https://yourserver.com/robots.txt):

Lietotāja aģents: *

Aizliegt: / pilnīgu indeksācijas aizliegumu

Neatliekama resursu URL noņemšana no Google Google meklēšanas

Ja jūs nevēlaties gaidīt atkārtotu indeksāciju, unvietne ir jāslēpj pēc iespējas ātrāk, iesaku izmantot pakalpojumu http://services.google.com/urlconsole/controller. Pre-robots.txt jau ir jāiekļauj vietnes servera saknes direktorijā. Norādījumi jāraksta tajā.

Ja rādītājs dažu iemeslu dēļ nav pieejamsrediģēšanai saknes direktorijā, vienkārši izveidot to mapē ar mērķiem, par kuru vēlaties paslēpt no meklētājprogrammas. Kad jūs to izdarītu, un attiecas uz pakalpojumu automātiski noņemot hiperteksta adreses, Google netiks skenēt mapes, kas izklāstīti plaisāt robots.txt.

Šādas neredzamības periods ir noteikts 3 mēnešiem. Pēc šī perioda no Google dokumentiem atkārtoti apstrādās no emitenta izņemtā direktorija.

UzKā vietni dzēst daļēji skenēt

Kad meklēšanas bot nolasa robotu saturu.txt, tad, pamatojoties uz tā saturu, tiek pieņemti noteikti lēmumi. Piemēram, no kataloga jāizslēdz viss direktorijs ar nosaukumu anatom. Par to pietiek rakstīt šādus norādījumus:

Lietotāja aģents: Googlebot

Aizliegt: / anatom

Vai, piemēram, jūs nevēlaties indeksēt visus attēlus, piemēram, .gif. Lai to izdarītu, pievienojiet šādu sarakstu:

Lietotāja aģents: Googlebot

Disallow: /*.gif$

Šis ir vēl viens piemērs. Izdzēsīsim informāciju par dinamiski ģenerētām lapām no analizētāja, pēc tam pievienojiet rādītājam šādu ierakstu:

Lietotāja aģents: Googlebot

Disallow: / *?

Šeit, aptuveni, un noteikumi parmeklētājprogrammas. Vēl viena lieta ir tāda, ka tas ir daudz ērtāk izmantot META tagu. Un tīmekļa pārziņi bieži izmanto tikai tādu standartu, kas regulē meklētājprogrammu darbību. Bet par to mēs parunāsim nākamajos rakstos.

</ p>>