Cambridge English Corpus

The Cambridge English Corpus (CEC) (formerly the Cambridge International Corpus, CIC) is a multi-billion word corpus of English language (containing both text corpus and spoken corpus data). The Cambridge English Corpus contains data from a number of sources including written and spoken, British and American English. The CEC also contains the Cambridge Learner Corpus, a 40m word corpus made up from English exam responses written by English language learners.

The Cambridge English Corpus is used to inform Cambridge University Press English Language Teaching publications as well as for research in corpus linguistics. Access is currently restricted to authors and researchers working on projects and publications for Cambridge University Press, and researchers at Cambridge English Language Assessment.

It contains instances of modern written English, taken from newspapers, magazines, novels, letters, emails, textbooks, websites, and many other sources. Its spoken data is taken from many sources, including everyday conversations, telephone calls, radio broadcasts, presentations, speeches, meetings, TV programmes and lectures.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.