Источники. o Портал Python-программистов http://www.python.su/

o Портал Python-программистов http://www.python.su/

o Русский сайт, посвящённый Python http://www.python.ru/

o PyDev: Форум python-разработчиков http://pydev.ru/

o Статья в wikipedia http://ru.wikipedia.org/wiki/Python

В первой главе рассказывается об основных возможностях, характеристиках, недостатках и библиотеках языка программирования Python.


Глава 2. Основные понятия лингвистической статистики

Для формализованного (автоматического [Андрющенко В.М. ЛЭС. С.397], автоматизированного, алгебраического [Гладкий А.В. Математ.энц. 1977. Т.1. С.247-249], аналитического [Сова Л.З. 1970, 2007], валентностного (С.Д. Кацнельсон), вычислительного [Андрющенко В.М. 1986, ЛЭС. С.397; Василевский А.Л., Марчук Ю.Н. 1970], дистрибутивного (Шайкевич), инженерного [Пиотровский Р.Г.; ЛЭС. С.397, 619], квантитативного [Арапов М.В. 1988; Гринберг Дж. 1963; Сильницкий Г.Г. 2006], кибернетического [Налимов В.В. 1979], комплексного (программа ВААЛ), компьютерного [Анисимов А.В. 1991; Зубов А.В.; Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. 2004; Шемакин Ю.И. 1992; НЗЛ–24 (1989); Марчук Ю.Н.; Нелюбин Л.Л.; Ыйм Халдур 1983], количественного, контентного (Манекин 1991; Почепцов 2001), математического [Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. 1977; Гладкий А.В.; Беляевская М.И. 1973; Пальм Р.], машинного (Андрющенко, Ершов, Караулов), механистического [Засорина Л.Н. ВЯ. 1968. №6. С.150], статистического [Алексеев П.М. 1983], численного, факторного, цифрового…) анализа текстовой информации надо определиться с базовыми понятиями: что именно и по каким формулам будем считать.

Основные понятия лингвистической статистики и методические указания по применению математических методов можно найти у К.Б.Бектаева и Р.Г.Пиотровского [Бектаев, 1974].

Основной единицей лексико-семантической системы нами принимается лексико-семантический вариант слова (ЛСВ), входящий в определенные отношения с однородными ЛСВ других многозначных терминов-слов и терминов-словосочетаний, объединяясь с ними в определенные группы.

С позиций лингвистического конструирования нового лингвистического объекта Ю.Н. Караулов предложил перечень конструктивных лексикографических параметров, которые должны планироваться при создании словарей системного типа: 1. Научная письменная речь. Связный монологический текст с абзацной организацией связи между высказываниями, образующими позиции словаря. Сквозная нумерация абзацев. 2. Терминологический параметр. 3. Однозначность терминов. 4. Ономасиологический параметр. 5. ЛСВ определенной части речи - в данном случае - существительных и субстантивных словосочетаний (без глаголов). 6. Ситуативные объединения с системными связями между ЛСВ, включающие: 1) тематические группы ЛСВ, 2) лексико-семантические группы ЛСВ. 7. Семантизация - дефиниции и рисунки. 8. Нормативный параметр. Стилистический параметр. Рекомендуемые термины и нерекомендуемые термины (дублеты и варианты). Термины - краткие формы. Символы. Буквенные обозначения. 9. Иностранные эквиваленты. 10. Алфавитные указатели на всех языках системного словаря.



Под конструктивными понимаются параметры, требующие для своей обработки построения специальных эвристик. Как правило, эти параметры, включающие в себя семантический компонент - словообразовательный, синтагматический (свободная и связанная сочетаемость), ассоциативный, лингвострановедческий, терминологический, параметр словоизменения (склонения, спряжения, степеней сравнения, наклонения) и другие, и потому как бы подразумевающие присутствие человеческого фактора [Караулов Ю.Н. 1981. С.137].

Дефиниций слова «СЛОВО» настолько много, насколько много и разных подходов и точек зрения. Пока единства в ученом мире нет (Ахманова О.С., Будагов Р.А., Виноградов В.В., Галкина-Федорук Е.М., Смирницкий А.А., Шанский Н.М. и мн. др.).

Слово = материальный объект (набор звуков и/или графем), обладающий фонетическими, лексико-семантическими и грамматическими свойствами.

Для информатики ПРОБЛЕМА - как определять границы слова? Аналитически (графемами) или предметно (напр., все допустимые словоформы зафиксировать в словаре)? С нашей точки зрения, логично каждую словоформу, которую удалось зафиксировать (что относительно просто сделать в процессе создания частотного словаря) в каком-либо реальном тексте (художественном, научном и т.п.) посчитать вокабулой (леммой, черным словом) и далее в словаре дать толкование (непосредственно, отсылкой к др. словарной статье или даже к др. словарю).

Лексема = единица лексического уровня языка, определяемая как совокупность всех форм и значений одного слова. Лексема соотносится с единицами других уровней языка, напр, с фонемой, морфемой. Такое понимание лексемы было предложено В.В. Виноградовым (см. также работы Д.Н. Шмелёва, А.А. Уфимцевой). Оно позволяет снять противоречие в понимании и употреблении термина «слово», с одной стороны, как системы форм и функций, осознаваемой на фоне структуры языка в целом, и, с другой стороны, как отдельной, реализуемой в речи формы слова. Лексема как единица номинативной системы и элемент строя языка характеризуется семантическим единством и обладает способностью выражать различные лексические и грамматические значения. В словоформах лексема представляет те значения, которые остаются неизменными при всех грамматических видоизменениях слова, что даёт основание некоторым исследователям определять лексемы более узко - как основу слова, выражающую лексическое значение, в отличие от флективных морфем, выражающих грамматическое значение (А. Мартине). Ещё более узкое понимание лексемы - только как единицы плана выражения, представляющей собой совокупность всех словоизменительных форм слова, - связано с введением в теоретическую семантику новой единицы плана содержания - семемы (Н.И. Толстой, В.Г. Гак, О.Н. Селиверстова, Л.А. Новиков; эта точка зрения отражена в ряде вузовских учебников). Однозначное слово представляет собой единство лексемы и семемы, многозначное - единство лексемы и соотносительных с нею взаимосвязанных семем. В таком понимании форма слова противопоставляется его значению. [Белоусова А.С. Русский язык. 2-е изд. М., 1997. С.207].



Словоформа = слово (лексема) в некоторой грамматической форме (в частном случае - в единственно имеющейся у слова форме). Словоформа - двусторонняя единица. Её внешняя сторона - это последовательность фонем с указанием места ударения (в русском языке). Внутренняя сторона - это значение, как правило, сложное, т.е. состоящее из нескольких элементарных значений. Всякая словоформа обладает некоторыми синтаксическими свойствами, т.е. способностью определённым образом сочетаться с другими словоформами при построении фразы. Совокупность синтаксических характеристик словоформы образует её синтактику. Совокупность всех словоформ слова (лексемы) образует парадигму данного слова. В отечественном языкознании теория словоформы разрабатывалась А.И. Смирницким, развивавшим взгляды Ф.Ф. Фортунатова, А.М. Пешковского, В.А. Богородицкого. Он различал в содержательной структуре словоформы три компонента: индивидуализирующий (лексический), выражаемый корнем слова, типовой (конкретно-грамматический) и собственно формальный (обобщённая грамматическая форма), выражаемые, напр., окончанием в словоформе городов. В части лингвистических работ, особенно зарубежных, словоформа именуется просто словом (т.е. значение термина словоформа рассматривается как часть возможных значений термина слово). [Зализняк А.А. // Русский язык.Энц. М., 1997. С.510-511].

Словоупотребление = выбор и употребление слов в речи, а также правила и закономерности такого выбора с точки зрения литературных норм и эффективности коммуникации. Литературные нормы словоупотребления определяются правильным (семантически точным, стилистически уместным) выбором слова, а также грамматически и стилистически правильной сочетаемостью слов [Скворцов Л.И. // Русский язык. Энц. М., 1997. С.510.].

Вокабула = основная (исконная, начальная) форма, заголовок словарной статьи.

Лемма = основа слова, «черное слово».

Лемматизация = (канонизация, нормализация, стемминг) процесс нахождения исходной формы слова (вокабулы), напр., сведение словоизменительных форм слова к исходной (для существительных - именительный падеж, единственное число; для прилагательных - именительный падеж, единственное число, мужской род; для глаголов - инфинитив и т.д.). Фактически при лемматизации все слова разбиваются на грамматические классы.

ЛСВ = лексико-семантический вариант вокабулы, элементарная лексическая единица = кортеж грамматических форм слова, соотнесенных с одним из значений данного слова [Смирницкий А.И. К вопросу о слове (проблема тождества слова) // Труды института языкознания АН СССР. М., 1954, т. 4. стр.36; Новиков Л.А. Семантика русского языка. М., 1982. С.113; Канделаки Т.Л. Канделаки Т.Л. Основные группировки терминологических единиц упорядоченных терминологий ВЯ 1987 №6 . С.84-89; Новиков Л.А. Лингвистический энциклопедический словарь. Полисемия. М., 1998. С.382].

Исходной основой для анализа текстов традиционно являются большие корпусы неструктурированных или слабоструктурированных текстов на естественном языке. Корпус текстов индексируется. Индекс содержит соответствия между некими базовыми сущностями, использующимися для поиска и фрагментами текстов их содержащими. Как правило, этими сущностями являются слова (или словоформы). В более развитых вариантах это может быть тематика текста, фразеологизмы и устойчивые (частотные) словосочетания или предложения. Индексы могут строиться как автоматически, так и вручную. Автоматически строятся, как правило, только индексы на основе слов (и в очень ограниченном виде на основе определения тематики текста).

Почему предлагается сконцентрировать внимание на ЛСВ вокабулы, а не просто традиционно, напр., словоформы, словоупотребления, лексемы, вокабулы или леммы? Мы разделяем точку зрения В.В.Морковкина и Л.А.Новикова, что при анализе текстов особое внимание надо обращать на "однозначное слово или лексико-семантический вариант многозначного слова /ЛСВ/. Только при этом условии можно соблюсти необходимую чистоту и полноту при классификации лексики. Человек - не вычислительная машина, и семантический спектр слова актуализируется у него крайне неравномерно. В результате, зная слово, т.е. безошибочно употребляя его, носитель языка далеко не всегда способен осознать то или иное значение как значение." [Морковкин В.В., Новиков Л.А. Рецензия. Ю.П. Караулов, Общая и русская идеография ВЯ 1978 №5. С.148]. При этом, "многослойность и негомогенность слова проявляется в том, что оно выступает по меньшей мере в трех разновидностях: как знак, как единица лексической и лексико-семантической систем и как элемент грамматического строя языка. Модусы существования слова - лексема, лексико-семантический вариант и словоупотребление в речи (тексте). Структура слова, рассматриваемого с точки зрения соотношения означающего и означаемого, довольно проста, структура слова как элемента строя и семантической структуры языка - сложна" [Аспекты семантических исследований. М.: Наука, 1980. С.10].

Анализ текста может осуществляться по следующему алгоритму: 1) по заранее определенному списку разделительных символов (пунктуационных знаков, специальных знаков: конец строки, абзаца и др.) исследуемый текст разбивается на порции (том, книга, часть, раздел, глава, параграф, абзац, предложение, словоформа); 2) выделяются приставки, суффиксы, окончания (аффиксы, форманты, терминоэлементы) для каждого слова; 3) определяется часть речи и уточняются атрибуты и параметры для каждого слова с помощью соответствующих алгоритмов; 4) определяются части предложения и др. синтаксические показатели; 5) определяются субъекты и объекты в тексте и наличие связей между ними. Объекты и субъекты образуют в своих отношениях модель проблемы. Привнесение вопроса к модели замыкает ее.

Теоретически после обработки текста по такому алгоритму можно решать некоторые задачи, задавая вопросы к тексту: - ответ на которые содержится в тексте; - ответ на которые можно получить логическим выводом; - для ответа на которые требуется наличие дополнительной базы знаний; - на которые можно найти ответ, зная модель поведения, аргументы поведения личности.

Предложенный алгоритм прост, но для исполнения человеком (с учётом уровня грамотности, образованности, начитанности), однако для реализации на компьютере недостаточно формализован.

Собственно говоря, количественный анализ текста предполагает расчёт ряда некоторых количественных, квантитативных, математических, статистических, численных характеристик корпуса текстов, напр.:

N = объём текста = число лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа, лексема) в тексте.

Nletter=число букв в тексте.

Nsyllable=число слогов в тексте.

Nclause = число предложений в тексте.

L = число ЛЕ в тексте, которые встретились в тексте хотя бы один раз.

Lf1 = ЛЕ, которые встретились в тексте только один раз.

Lfk= число ЛЕ, которые встретились в тексте с частотой больше одного раза.

r= ранг ЛЕ. Ранг ЛЕ может измеряться следущим образом: а) по частоте встречаемости в тексте (или фрагменте) – самая частотная ЛЕ имеет ранг равный 1 и далее ранг r увеличивается по мере уменьшения частоты встречаемости ЛЕ в тексте (ЛЕ, имеющие одинаковую частоту имеют и равные ранги); б) по длине слова (напр., число букв в ЛЕ); в) число значений ЛЕ (по толковым словарям).

Lr1 = максимальная частотность ЛЕ.

Fi= абсолютная частота ЛЕ.

F*i = накопленная абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих абсолютных частот ЛЕ.

fi= Fi / N - относительная частота ЛЕ.

f*i = F*i/ N - накопленная относительная частота ЛЕ.

Lword= средняя длина слова в буквах (среднее число букв в слове, подсчитанное для каждой выборки).

Lclause = средняя длина предложений в словах (среднее число слов в предложении, подсчитанное для каждой выборки); = длина i предложения.

Lsyllable = средняя длина слов в слогах (среднее число слогов в слове, подсчитанное для каждой выборки).

Lsyllable3 = среднее число "длинных" слов (более трех слогов). Lsyllable3 i = число "длинных" слов в i предложении.

Lempty= количество служебных слов в предложении (среднее число союзов, предлогов и частиц в предложении для каждой выборки).

Fn-grams= частота n-грамм, биграмм, триграммы, квадрограммы (т.е. сочетания из n, 2, 3, 4 букв).

Fmorph= частота морфем (приставок, суффиксов).

Fverb= частота употребления глаголов.

Finterjection= частота употребления междометий.

Fadjective= частота употребления прилагательных.

Fempty= частота употребления служебных слов (предлогов, союзов, частиц).

Fnoun= частота употребления существительных.


5022899862937078.html
5022958873427250.html
    PR.RU™