Искусство программирования на языке сценариев командной оболочки, Купер Мендель

Искусство программирования на языке сценариев командной оболочки

на обложку

Купер Мендель

Шрифт:

# затем удаляются повторяющиеся строки,

# и результат записывается в выходной файл.

Ключ – c выводит количество повторяющихся строк.

bash$ cat testfile

Эта строка встречается только один раз.

Эта строка встречается дважды.

Эта строка

встречается трижды.

Эта строка встречается трижды.

bash$ uniq -c testfile

1 Эта строка встречается только один раз.

2 Эта строка встречается дважды.

3 Эта строка встречается трижды.

bash$ sort testfile | uniq -c | sort -nr

3 Эта строка встречается трижды.

2 Эта строка встречается дважды.

1 Эта строка встречается только один раз.

Команда sort INPUTFILE | uniq -c | sort -nr выводит статистику встречаемости строк в файле INPUTFILE (ключ – nr, в команде sort, означает сортировку в порядке убывания). Этот шаблон может с успехом использоваться при анализе файлов системного журнала, словарей и везде, где необходимо проанализировать лексическую структуру документа.

Пример 12-8. Частота встречаемости отдельных слов

#!/bin/bash

# wf.sh: "Сырой" анализ частоты встречаемости слова в текстовом файле.

ARGS=1

E_BADARGS=65

E_NOFILE=66

if [ $# -ne "$ARGS" ] # Файл для анализа задан?

then

echo "Порядок использования: `basename $0` filename"

exit $E_BADARGS

if [ !
– f "$1" ] # Проверка существования файла.

then

echo "Файл \"$1\" не найден."

exit $E_NOFILE

########################################################

# main

sed -e 's/\.//g' -e 's/ /\

/g' "$1" | tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr

# =========================

Подсчет количества вхождений

# Точки и пробелы заменяются

#+ символами перевода строки,

#+ затем символы переводятся в нижний регистр

#+ и наконец подсчитывается количество вхождений,

#+ и выполняется сортировка по числу вхождений.

########################################################

# Упражнения:

# ---------

# 1) Добавьте команду 'sed' для отсечения других знаков пунктуации, например, запятых.

# 2) Добавьте удаление лишних пробелов и других пробельных символов.

# 3) Добавьте дополнительную сортировку так, чтобы слова с одинаковой частотой встречаемости

#+ сортировались бы в алфавитном порядке.

exit 0

bash$ cat testfile

Эта строка встречается только один раз.

Эта строка встречается дважды.

Эта строка встречается трижды.

bash$ ./wf.sh testfile

6 Эта

6 встречается

6 строка

3 трижды

2 дважды

1 только

1 один

1 раз

expand, unexpand

Команда expand преобразует символы табуляции в пробелы. Часто используется в конвейерной обработке текста.

Команда unexpand преобразует пробелы в символы табуляции. Т.е. она является обратной по отношению к команде expand.

cut

Предназначена для извлечения отдельных полей из текстовых файлов. Напоминает команду print $N в awk, но более ограничена в своих возможностях. В простейших случаях может быть неплохой заменой awk в сценариях. Особую значимость, для команды cut, представляют ключи – d (разделитель полей) и – f (номер(а) поля(ей)).